論文の概要: Reliability Crisis of Reference-free Metrics for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2509.25961v1
- Date: Tue, 30 Sep 2025 08:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.071809
- Title: Reliability Crisis of Reference-free Metrics for Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正のための基準フリーメトリクスの信頼性危機
- Authors: Takumi Goto, Yusuke Sakai, Taro Watanabe,
- Abstract要約: 我々は,SOME,Scribendi,IMPARA,LLMベースの4つの基準フリーメトリクスに対する敵攻撃戦略を提案する。
これらの結果は、より堅牢な評価方法の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 34.071151696990384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-free evaluation metrics for grammatical error correction (GEC) have achieved high correlation with human judgments. However, these metrics are not designed to evaluate adversarial systems that aim to obtain unjustifiably high scores. The existence of such systems undermines the reliability of automatic evaluation, as it can mislead users in selecting appropriate GEC systems. In this study, we propose adversarial attack strategies for four reference-free metrics: SOME, Scribendi, IMPARA, and LLM-based metrics, and demonstrate that our adversarial systems outperform the current state-of-the-art. These findings highlight the need for more robust evaluation methods.
- Abstract(参考訳): 文法的誤り訂正(GEC)の基準自由評価指標は,人間の判断と高い相関性を示した。
しかし、これらの指標は、不当に高いスコアを得ることを目的とした敵システムを評価するために設計されていない。
このようなシステムの存在は、適切なECCシステムを選択する際のユーザを誤解させる可能性があるため、自動評価の信頼性を損なう。
本研究では,SOME,Scribendi,IMPARA,LLMの4つの基準のない指標に対する敵攻撃戦略を提案する。
これらの結果は、より堅牢な評価方法の必要性を浮き彫りにした。
関連論文リスト
- CLEME2.0: Towards Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [29.017965285565765]
CLEME2.0**は、ヒット補正、誤補正、アンダーコレクト、オーバーコレクトを記述した参照ベースのメトリクスである。
2つの人的判断データセットと6つの基準データセットの実験により,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-07-01T03:35:58Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。