論文の概要: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction
- arxiv url: http://arxiv.org/abs/2305.10819v1
- Date: Thu, 18 May 2023 08:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:15:44.686229
- Title: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction
- Title(参考訳): CLEME:文法的誤り訂正のためのマルチ参照評価
- Authors: Jingheng Ye, Yinghui Li, Qingyu Zhou, Yangning Li, Shirong Ma, Hai-Tao
Zheng, Ying Shen
- Abstract要約: マルチ参照設定において文法誤り訂正(GEC)システムを評価するために,チャンクレベルマルチ参照評価(CLEME)を提案する。
まず、CLEMEはソース、仮説、およびすべての参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによるバイアスを取り除く。
提案手法は,コーパスレベルの設定と文レベルの設定の両方において,複数の参照セット上で,既存の参照ベースGCC指標を一貫して,実質的に上回っている。
- 参考スコア(独自算出の注目度): 28.571374145485645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is intractable to evaluate the performance of Grammatical Error Correction
(GEC) systems since GEC is a highly subjective task. Designing an evaluation
metric that is as objective as possible is crucial to the development of GEC
task. Previous mainstream evaluation metrics, i.e., reference-based metrics,
introduce bias into the multi-reference evaluation because they extract edits
without considering the presence of multiple references. To overcome the
problem, we propose Chunk-LEvel Multi-reference Evaluation (CLEME) designed to
evaluate GEC systems in multi-reference settings. First, CLEME builds chunk
sequences with consistent boundaries for the source, the hypothesis and all the
references, thus eliminating the bias caused by inconsistent edit boundaries.
Then, based on the discovery that there exist boundaries between different
grammatical errors, we automatically determine the grammatical error boundaries
and compute F$_{0.5}$ scores in a novel way. Our proposed CLEME approach
consistently and substantially outperforms existing reference-based GEC metrics
on multiple reference sets in both corpus-level and sentence-level settings.
Extensive experiments and detailed analyses demonstrate the correctness of our
discovery and the effectiveness of our designed evaluation metric.
- Abstract(参考訳): GECは非常に主観的なタスクであるため,文法誤り訂正(GEC)システムの性能を評価することは困難である。
GECタスクの開発には、可能な限り客観的な評価基準を設計することが不可欠である。
従来の主流評価指標、すなわち参照ベースのメトリクスは、複数の参照の存在を考慮せずに編集を抽出するため、マルチ参照評価にバイアスをもたらす。
この問題を解決するために,マルチ参照環境下でのGECシステム評価を目的としたチャンクレベルマルチ参照評価(CLEME)を提案する。
まず、CLEMEはソース、仮説、およびすべての参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによるバイアスを取り除く。
そして、異なる文法的誤りの境界が存在するという発見に基づいて、文法的誤り境界を自動的に決定し、新しい方法でF$_{0.5}$スコアを計算する。
提案手法は,コーパスレベルの設定と文レベルの設定の両方において,複数の参照セット上で,既存の参照ベースGCC指標を一貫して,実質的に上回っている。
広範な実験と詳細な分析により,発見の正確性と,設計した評価指標の有効性が実証された。
関連論文リスト
- HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [28.533044857379647]
本稿では,文法的誤り訂正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。
GECシステムの4つの基本次元を記述可能な基準ベース評価戦略であるCLEME2.0を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:35:58Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:40:04Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。