論文の概要: Revisiting Grammatical Error Correction Evaluation and Beyond
- arxiv url: http://arxiv.org/abs/2211.01635v1
- Date: Thu, 3 Nov 2022 07:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:16:07.568411
- Title: Revisiting Grammatical Error Correction Evaluation and Beyond
- Title(参考訳): 文法的誤り訂正評価を再考する
- Authors: Peiyuan Gong, Xuebo Liu, Heyan Huang, Min Zhang
- Abstract要約: 本稿では,事前学習によるGEC評価の理解と改善に向けた第一歩を踏み出す。
PT-M2 は,PT-M2 で補正された部分のみを計測し,両世界の長所を達成するための新しい GEC 評価指標を提案する。
- 参考スコア(独自算出の注目度): 38.12193886109598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining-based (PT-based) automatic evaluation metrics (e.g., BERTScore
and BARTScore) have been widely used in several sentence generation tasks
(e.g., machine translation and text summarization) due to their better
correlation with human judgments over traditional overlap-based methods.
Although PT-based methods have become the de facto standard for training
grammatical error correction (GEC) systems, GEC evaluation still does not
benefit from pretrained knowledge. This paper takes the first step towards
understanding and improving GEC evaluation with pretraining. We first find that
arbitrarily applying PT-based metrics to GEC evaluation brings unsatisfactory
correlation results because of the excessive attention to inessential systems
outputs (e.g., unchanged parts). To alleviate the limitation, we propose a
novel GEC evaluation metric to achieve the best of both worlds, namely PT-M2
which only uses PT-based metrics to score those corrected parts. Experimental
results on the CoNLL14 evaluation task show that PT-M2 significantly
outperforms existing methods, achieving a new state-of-the-art result of 0.949
Pearson correlation. Further analysis reveals that PT-M2 is robust to evaluate
competitive GEC systems. Source code and scripts are freely available at
https://github.com/pygongnlp/PT-M2.
- Abstract(参考訳): 事前学習に基づく(PTに基づく)自動評価指標(BERTScoreやBARTScoreなど)は、従来の重複に基づく手法よりも人間の判断との相関が優れているため、いくつかの文生成タスク(機械翻訳やテキスト要約など)で広く使用されている。
PT法は文法的誤り訂正(GEC)システムの訓練のデファクトスタンダードとなっているが、GEC評価は事前訓練された知識の恩恵を受けていない。
本稿では,事前学習によるGEC評価の理解と改善に向けた第一歩を踏み出す。
GEC評価にPTベースのメトリクスを任意に適用すると、インテリジェンスシステム出力(例えば、変化部品)への過度な注意が原因で、不満足な相関結果が得られることが最初に判明した。
この制限を緩和するために,PT-M2というPT-M2のみを用いて補正した部品を評価できる新しいGCC評価指標を提案する。
CoNLL14 評価タスクの実験結果から,PT-M2 は既存の手法よりも優れており,Pearson 0.949 の相関式が得られた。
さらに分析したところ、PT-M2は競合するGECシステムを評価するのに堅牢であることがわかった。
ソースコードとスクリプトはhttps://github.com/pygongnlp/pt-m2で無料で利用できる。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。