論文の概要: Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human?
- arxiv url: http://arxiv.org/abs/2502.09416v1
- Date: Thu, 13 Feb 2025 15:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:50.320281
- Title: Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human?
- Title(参考訳): 文法的誤り訂正のための評価基準の再考:なぜ人間と異なる評価プロセスを使うのか?
- Authors: Takumi Goto, Yusuke Sakai, Taro Watanabe,
- Abstract要約: 本稿では,人的評価手法と整合してギャップを埋める自動評価指標の集約手法を提案する。
編集ベースのメトリクス、$n$-gramベースのメトリクス、文レベルのメトリクスなど、さまざまなメトリクスを用いて実験を行い、SEEDAベンチマークのほとんどのメトリクスに対して、ギャップの解消が結果を改善することを示す。
- 参考スコア(独自算出の注目度): 13.02513034520894
- License:
- Abstract: One of the goals of automatic evaluation metrics in grammatical error correction (GEC) is to rank GEC systems such that it matches human preferences. However, current automatic evaluations are based on procedures that diverge from human evaluation. Specifically, human evaluation derives rankings by aggregating sentence-level relative evaluation results, e.g., pairwise comparisons, using a rating algorithm, whereas automatic evaluation averages sentence-level absolute scores to obtain corpus-level scores, which are then sorted to determine rankings. In this study, we propose an aggregation method for existing automatic evaluation metrics which aligns with human evaluation methods to bridge this gap. We conducted experiments using various metrics, including edit-based metrics, $n$-gram based metrics, and sentence-level metrics, and show that resolving the gap improves results for the most of metrics on the SEEDA benchmark. We also found that even BERT-based metrics sometimes outperform the metrics of GPT-4. We publish our unified implementation of the metrics and meta-evaluations.
- Abstract(参考訳): 文法的誤り訂正(GEC)における自動評価指標の目標の1つは、人間の嗜好に合致するように、GECシステムをランク付けすることである。
しかし、現在の自動評価は人的評価から逸脱する手順に基づいている。
具体的には、人的評価は、評価アルゴリズムを用いて、文章レベルの相対評価結果(例えば、ペアワイズ比較)を集約してランキングを導き、一方、自動評価平均は、文レベルの絶対スコアを取得してコーパスレベルのスコアを取得し、ランキングを決定する。
本研究では,このギャップを埋めるために人的評価手法と整合した既存の自動評価指標の集約手法を提案する。
編集ベースのメトリクス、$n$-gramベースのメトリクス、文レベルのメトリクスなど、さまざまなメトリクスを用いて実験を行い、SEEDAベンチマークのほとんどのメトリクスに対して、ギャップの解消が結果を改善することを示す。
また、BERTベースのメトリクスでさえ、GPT-4のメトリクスを上回っていることもわかりました。
メトリクスとメタ評価の統一的な実装を公開します。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models [1.534667887016089]
本稿では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
論文 参考訳(メタデータ) (2023-11-07T18:33:34Z) - Discordance Minimization-based Imputation Algorithms for Missing Values
in Rating Data [4.100928307172084]
複数の評価リストが組み合わされたり、考慮されたりすると、被験者はしばしば評価を欠く。
そこで本研究では,6つの実世界のデータセットを用いて,欠落した値パターンの解析を行う。
評価提供者間での総合評価不一致を最小限に抑える最適化モデルとアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-07T14:42:06Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。