論文の概要: The Validity of Coreference-based Evaluations of Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2602.16200v1
- Date: Wed, 18 Feb 2026 05:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.525478
- Title: The Validity of Coreference-based Evaluations of Natural Language Understanding
- Title(参考訳): 自然言語理解における基準に基づく評価の有効性
- Authors: Ian Porada,
- Abstract要約: 標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
- 参考スコア(独自算出の注目度): 3.505146496638911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, I refine our understanding as to what conclusions we can reach from coreference-based evaluations by expanding existing evaluation practices and considering the extent to which evaluation results are either converging or conflicting. First, I analyze standard coreference evaluations and show that their design often leads to non-generalizable conclusions due to issues of measurement validity - including contestedness (multiple, competing definitions of coreference) and convergent validity (evaluation results that rank models differently across benchmarks). Second, I propose and implement a novel evaluation focused on testing systems' ability to infer the relative plausibility of events, a key aspect of resolving coreference. Through this extended evaluation, I find that contemporary language models demonstrate strong performance on standard benchmarks - improving over earlier baseline systems within certain domains and types of coreference - but remain sensitive to the evaluation conditions: they often fail to generalize in ways one would expect a human to be capable of when evaluation contexts are slightly modified. Taken together, these findings clarify both the strengths, such as improved accuracy over baselines on widely used evaluations, and the limitations of the current NLP paradigm, including weaknesses in measurement validity, and suggest directions for future work in developing better evaluation methods and more genuinely generalizable systems.
- Abstract(参考訳): この論文では、既存の評価プラクティスを拡張し、評価結果が収束または矛盾する程度を考慮し、コア参照に基づく評価から到達できる結論について理解を深める。
まず、標準コア参照評価を分析し、その設計が、競合性(複数、競合するコア参照の定義)や収束妥当性(ベンチマーク毎に異なるランク付けされたモデルの評価結果)といった測定精度の問題によって、しばしば一般化不可能な結論につながることを示す。
第2に,イベントの相対的妥当性を推定するテストシステムの能力に着目した新たな評価手法を提案し,実装する。
この拡張評価を通じて、現代言語モデルは、標準ベンチマーク(特定のドメイン内の以前のベースラインシステムよりも改善されている)で強力なパフォーマンスを示すが、評価条件に敏感であることが分かりました。
これらの結果は,広く使用されている評価基準の精度の向上や,測定精度の低下を含む現在のNLPパラダイムの限界といった長所と,より優れた評価方法やより真に一般化可能なシステム開発に向けた今後の取り組みの方向性の両方を明らかにした。
関連論文リスト
- Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。
私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文 参考訳(メタデータ) (2025-05-13T20:36:22Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [15.19714327680248]
チェックリストに基づく評価フレームワークであるCheckEvalを導入する。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。