論文の概要: Revisiting Meta-evaluation for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2403.02674v2
- Date: Sun, 26 May 2024 12:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:45:59.923380
- Title: Revisiting Meta-evaluation for Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正のためのメタ評価の再検討
- Authors: Masamune Kobayashi, Masato Mita, Mamoru Komachi,
- Abstract要約: SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
- 参考スコア(独自算出の注目度): 14.822205658480813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metrics are the foundation for automatic evaluation in grammatical error correction (GEC), with their evaluation of the metrics (meta-evaluation) relying on their correlation with human judgments. However, conventional meta-evaluations in English GEC encounter several challenges including biases caused by inconsistencies in evaluation granularity, and an outdated setup using classical systems. These problems can lead to misinterpretation of metrics and potentially hinder the applicability of GEC techniques. To address these issues, this paper proposes SEEDA, a new dataset for GEC meta-evaluation. SEEDA consists of corrections with human ratings along two different granularities: edit-based and sentence-based, covering 12 state-of-the-art systems including large language models (LLMs), and two human corrections with different focuses. The results of improved correlations by aligning the granularity in the sentence-level meta-evaluation, suggest that edit-based metrics may have been underestimated in existing studies. Furthermore, correlations of most metrics decrease when changing from classical to neural systems, indicating that traditional metrics are relatively poor at evaluating fluently corrected sentences with many edits.
- Abstract(参考訳): 計量は文法的誤り訂正(GEC)における自動評価の基礎であり、その評価は人間の判断との相関に依存する。
しかし、従来のGECのメタ評価は、評価粒度の不整合に起因するバイアスや、古典的なシステムを用いた時代遅れのセットアップなど、いくつかの課題に直面している。
これらの問題はメトリクスの誤解釈を招き、GEC技術の適用性を阻害する可能性がある。
これらの課題に対処するために,GECメタ評価のための新しいデータセットSEEDAを提案する。
SEEDAは、編集ベースと文ベースという2つの異なる粒度に沿って人間の評価を補正し、大きな言語モデル(LLM)を含む12の最先端システムと異なる焦点を持つ2つの人間の修正をカバーしている。
文レベルのメタ評価の粒度を調整して相関性を改善した結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
さらに、古典的なシステムからニューラルネットワークへ変化すると、ほとんどのメトリクスの相関は減少し、伝統的なメトリクスは、多くの編集を施した流動的な修正文を評価するのに比較的貧弱であることを示す。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [28.533044857379647]
本稿では,文法的誤り訂正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。
GECシステムの4つの基本次元を記述可能な基準ベース評価戦略であるCLEME2.0を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:35:58Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Revisiting Grammatical Error Correction Evaluation and Beyond [38.12193886109598]
本稿では,事前学習によるGEC評価の理解と改善に向けた第一歩を踏み出す。
PT-M2 は,PT-M2 で補正された部分のみを計測し,両世界の長所を達成するための新しい GEC 評価指標を提案する。
論文 参考訳(メタデータ) (2022-11-03T07:55:12Z) - A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:40:04Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。