論文の概要: CLEME2.0: Towards Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2407.00934v2
- Date: Thu, 29 May 2025 06:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.276099
- Title: CLEME2.0: Towards Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction
- Title(参考訳): CLEME2.0:文法的誤り訂正のためのアンタングル編集による解釈的評価を目指して
- Authors: Jingheng Ye, Zishan Xu, Yinghui Li, Linlin Song, Qingyu Zhou, Hai-Tao Zheng, Ying Shen, Wenhao Jiang, Hong-Gee Kim, Ruitong Liu, Xin Su, Zifei Shan,
- Abstract要約: CLEME2.0**は、ヒット補正、誤補正、アンダーコレクト、オーバーコレクトを記述した参照ベースのメトリクスである。
2つの人的判断データセットと6つの基準データセットの実験により,本手法の有効性とロバスト性を実証した。
- 参考スコア(独自算出の注目度): 29.017965285565765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper focuses on the interpretability of Grammatical Error Correction (GEC) evaluation metrics, which received little attention in previous studies. To bridge the gap, we introduce **CLEME2.0**, a reference-based metric describing four fundamental aspects of GEC systems: hit-correction, wrong-correction, under-correction, and over-correction. They collectively contribute to exposing critical qualities and locating drawbacks of GEC systems. Evaluating systems by combining these aspects also leads to superior human consistency over other reference-based and reference-less metrics. Extensive experiments on two human judgment datasets and six reference datasets demonstrate the effectiveness and robustness of our method, achieving a new state-of-the-art result. Our codes are released at https://github.com/THUKElab/CLEME.
- Abstract(参考訳): 本稿では,従来の研究でほとんど注目されなかった文法的誤り補正(GEC)評価指標の解釈可能性に焦点を当てた。
このギャップを埋めるために、我々は**CLEME2.0**という基準ベースのメトリクスを紹介します。
それらは総合的に、GECシステムの重要な品質と欠点の特定に寄与している。
これらの側面を組み合わせることでシステムを評価することは、他の参照ベースおよび参照レスメトリクスよりも優れた人間の一貫性をもたらす。
2つの人間の判断データセットと6つの参照データセットに関する大規模な実験は、我々の手法の有効性とロバスト性を示し、新しい最先端の結果を達成する。
私たちのコードはhttps://github.com/THUKElab/CLEME.comで公開されています。
関連論文リスト
- Corrections Meet Explanations: A Unified Framework for Explainable Grammatical Error Correction [29.583603444317855]
本稿では,説明・修正タスクを生成的に統合した統一的な説明可能なGECフレームワークであるEXGECを紹介する。
様々なNLPモデル(BART、T5、Llama3)の結果、EXGECモデルは両方のタスクにおいてシングルタスクベースラインを超えている。
論文 参考訳(メタデータ) (2025-02-21T07:42:33Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。