論文の概要: Realistic Evaluation Principles for Cross-document Coreference
Resolution
- arxiv url: http://arxiv.org/abs/2106.04192v1
- Date: Tue, 8 Jun 2021 09:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 05:18:11.756881
- Title: Realistic Evaluation Principles for Cross-document Coreference
Resolution
- Title(参考訳): クロスドキュメント参照解決のための現実的評価原理
- Authors: Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, Ido Dagan
- Abstract要約: 我々は、モデルが標準ECB+データセットの合成トピック構造を利用するべきではないと主張している。
私たちは、より現実的な評価原則が競争モデルに与える影響を実証的に示します。
- 参考スコア(独自算出の注目度): 19.95214898312209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We point out that common evaluation practices for cross-document coreference
resolution have been unrealistically permissive in their assumed settings,
yielding inflated results. We propose addressing this issue via two evaluation
methodology principles. First, as in other tasks, models should be evaluated on
predicted mentions rather than on gold mentions. Doing this raises a subtle
issue regarding singleton coreference clusters, which we address by decoupling
the evaluation of mention detection from that of coreference linking. Second,
we argue that models should not exploit the synthetic topic structure of the
standard ECB+ dataset, forcing models to confront the lexical ambiguity
challenge, as intended by the dataset creators. We demonstrate empirically the
drastic impact of our more realistic evaluation principles on a competitive
model, yielding a score which is 33 F1 lower compared to evaluating by prior
lenient practices.
- Abstract(参考訳): クロスドキュメントのコリファレンス解決に対する一般的な評価プラクティスは,想定された設定では非現実的な許容範囲であり,その結果が膨らんでいることを指摘した。
2つの評価方法論を通じてこの問題に対処することを提案する。
第一に、他のタスクと同様に、モデルは金の言及ではなく予測された言及に基づいて評価されるべきである。
これによってシングルトンコリファレンスクラスタに関する微妙な問題が発生し、コリファレンスリンクから参照検出の評価を分離することで対処します。
第二に、モデルが標準のECB+データセットの合成トピック構造を活用すべきではなく、データセット作成者が意図したような語彙的あいまいさに直面することを強いる。
我々は、競争モデルに対するより現実的な評価原理の劇的な影響を実証的に示し、先行的な評価よりも33 f1低いスコアを得る。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - Improving the Generalization Ability in Essay Coherence Evaluation
through Monotonic Constraints [22.311428543432605]
コヒーレンス(Coherence)は、テキストの可読性を評価する上で重要な側面であり、2つの主要な要因を通じて評価することができる。
2つの特徴抽出器を持つ回帰モデルからなるコヒーレンススコアリングモデルを提案する。
NLPCC 2023共有タスク7のトラック1で3位となった。
論文 参考訳(メタデータ) (2023-07-25T08:26:46Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Improving Narrative Relationship Embeddings by Training with Additional
Inverse-Relationship Constraints [0.0]
本稿では,物語の意味空間の縮小から,人物関係を埋め込むという課題について考察する。
この仮定を解析し,人為的なラベルを用いた下流クラスタリングタスクの有効性をシミュレートするユニークな評価法を用いて,ベースライン・オブ・ザ・アートモデルに対するアプローチを比較する。
論文 参考訳(メタデータ) (2022-12-21T17:59:11Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - On the Evaluation of Generative Adversarial Networks By Discriminative
Models [0.0]
GAN(Generative Adversarial Networks)は、複雑な多次元データを正確にモデル化し、現実的なサンプルを生成する。
この問題に対処する研究努力の大部分は、質的な視覚的評価によって検証された。
本研究では,シームズニューラルネットワークを用いてドメインに依存しない評価指標を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:50:39Z) - Streamlining Cross-Document Coreference Resolution: Evaluation and
Modeling [25.94435242086499]
クロスドキュメント(CD)コア参照解決のための最近の評価プロトコルは、しばしば矛盾または寛大である。
我々の主な貢献は、原文のみにアクセスすることを前提とした実用的評価手法を提案することである。
我々のモデルは、CDコア参照設定に対処するためにドキュメント内コア参照解決のために、最近のニューラルモデルを適用し、拡張する。
論文 参考訳(メタデータ) (2020-09-23T10:02:10Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。