論文の概要: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction
- arxiv url: http://arxiv.org/abs/2305.10819v2
- Date: Tue, 17 Oct 2023 04:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:50:14.763159
- Title: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction
- Title(参考訳): CLEME:文法的誤り訂正のためのマルチ参照評価
- Authors: Jingheng Ye, Yinghui Li, Qingyu Zhou, Yangning Li, Shirong Ma, Hai-Tao
Zheng, Ying Shen
- Abstract要約: チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
- 参考スコア(独自算出の注目度): 32.44051877804761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the performance of Grammatical Error Correction (GEC) systems is a
challenging task due to its subjectivity. Designing an evaluation metric that
is as objective as possible is crucial to the development of GEC task. However,
mainstream evaluation metrics, i.e., reference-based metrics, introduce bias
into the multi-reference evaluation by extracting edits without considering the
presence of multiple references. To overcome this issue, we propose Chunk-LEvel
Multi-reference Evaluation (CLEME), designed to evaluate GEC systems in the
multi-reference evaluation setting. CLEME builds chunk sequences with
consistent boundaries for the source, the hypothesis and references, thus
eliminating the bias caused by inconsistent edit boundaries. Furthermore, we
observe the consistent boundary could also act as the boundary of grammatical
errors, based on which the F$_{0.5}$ score is then computed following the
correction independence assumption. We conduct experiments on six English
reference sets based on the CoNLL-2014 shared task. Extensive experiments and
detailed analyses demonstrate the correctness of our discovery and the
effectiveness of CLEME. Further analysis reveals that CLEME is robust to
evaluate GEC systems across reference sets with varying numbers of references
and annotation style.
- Abstract(参考訳): 文法的誤り訂正(gec)システムの性能評価は,その主観性から難しい課題である。
GECタスクの開発には、可能な限り客観的な評価基準を設計することが不可欠である。
しかし、主流評価指標、すなわち参照ベースの指標は、複数の参照の存在を考慮せずに編集を抽出することで、マルチ参照評価にバイアスをもたらす。
この問題を解決するために,マルチ参照評価設定において,GECシステムの評価を目的としたチャンクレベルマルチ参照評価(CLEME)を提案する。
CLEMEは、ソース、仮説、参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによって生じるバイアスを取り除く。
さらに、一貫した境界は文法的誤りの境界としても作用し、f$_{0.5}$スコアは補正独立性仮定に従って計算される。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
CLEMEの発見の正しさと有効性を示す実験と詳細な分析を行った。
さらに分析したところ、CLEME は参照数やアノテーションスタイルの異なる参照セット間で GEC システムを評価するのに堅牢であることが判明した。
関連論文リスト
- HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [28.533044857379647]
本稿では,文法的誤り訂正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。
GECシステムの4つの基本次元を記述可能な基準ベース評価戦略であるCLEME2.0を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:35:58Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:40:04Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。