Fugu-MT 論文翻訳(概要): CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction

論文の概要: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction

arxiv url: http://arxiv.org/abs/2305.10819v2
Date: Tue, 17 Oct 2023 04:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 21:50:14.763159
Title: CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction
Title（参考訳）: CLEME:文法的誤り訂正のためのマルチ参照評価
Authors: Jingheng Ye, Yinghui Li, Qingyu Zhou, Yangning Li, Shirong Ma, Hai-Tao Zheng, Ying Shen
Abstract要約: チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
参考スコア（独自算出の注目度）: 32.44051877804761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the performance of Grammatical Error Correction (GEC) systems is a challenging task due to its subjectivity. Designing an evaluation metric that is as objective as possible is crucial to the development of GEC task. However, mainstream evaluation metrics, i.e., reference-based metrics, introduce bias into the multi-reference evaluation by extracting edits without considering the presence of multiple references. To overcome this issue, we propose Chunk-LEvel Multi-reference Evaluation (CLEME), designed to evaluate GEC systems in the multi-reference evaluation setting. CLEME builds chunk sequences with consistent boundaries for the source, the hypothesis and references, thus eliminating the bias caused by inconsistent edit boundaries. Furthermore, we observe the consistent boundary could also act as the boundary of grammatical errors, based on which the F$_{0.5}$ score is then computed following the correction independence assumption. We conduct experiments on six English reference sets based on the CoNLL-2014 shared task. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of CLEME. Further analysis reveals that CLEME is robust to evaluate GEC systems across reference sets with varying numbers of references and annotation style.
Abstract（参考訳）: 文法的誤り訂正(gec)システムの性能評価は,その主観性から難しい課題である。 GECタスクの開発には、可能な限り客観的な評価基準を設計することが不可欠である。しかし、主流評価指標、すなわち参照ベースの指標は、複数の参照の存在を考慮せずに編集を抽出することで、マルチ参照評価にバイアスをもたらす。この問題を解決するために,マルチ参照評価設定において,GECシステムの評価を目的としたチャンクレベルマルチ参照評価(CLEME)を提案する。 CLEMEは、ソース、仮説、参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによって生じるバイアスを取り除く。さらに、一貫した境界は文法的誤りの境界としても作用し、f$_{0.5}$スコアは補正独立性仮定に従って計算される。我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。 CLEMEの発見の正しさと有効性を示す実験と詳細な分析を行った。さらに分析したところ、CLEME は参照数やアノテーションスタイルの異なる参照セット間で GEC システムを評価するのに堅牢であることが判明した。

関連論文リスト

Improving Explainability of Sentence-level Metrics via Edit-level Attribution for Grammatical Error Correction [11.512856112792093]
本稿では,個々の編集に文レベルスコアを寄与させ,特定の修正が全体のパフォーマンスにどのように貢献するかを考察する。既存の文レベルのメトリクスを用いた実験は、異なる編集粒度間で高い一貫性を示し、人間の評価と約70%の一致を示す。さらに、帰属結果に基づいてメトリクスのバイアスを分析し、正書法編集を無視する傾向などの傾向を明らかにする。
論文参考訳（メタデータ） (2024-12-17T17:31:17Z)
DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models [39.493913608472404]
大規模言語モデル(LLM)に基づく文法的誤り訂正(GEC)モデルは、提供された金の参照から分岐する修正を生成することが多い。この不一致は、従来の基準ベースの評価指標の信頼性を損なう。本稿では,GECモデル,DSGram,Semantic Coherence,Edit Level,Fluencyを統合し,動的重み付け機構を活用する新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-17T11:54:16Z)
HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。 HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文参考訳（メタデータ） (2024-07-26T08:24:30Z)
CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [28.533044857379647]
本稿では,文法的誤り訂正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。 GECシステムの4つの基本次元を記述可能な基準ベース評価戦略であるCLEME2.0を提案する。
論文参考訳（メタデータ） (2024-07-01T03:35:58Z)
Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。人間の評価を2つの異なる粒度で補正する。その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文参考訳（メタデータ） (2024-03-05T05:53:09Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文参考訳（メタデータ） (2023-11-14T14:56:33Z)
Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。従来の評価手法では、システム機能や目的を完全に把握できない。
論文参考訳（メタデータ） (2023-08-17T13:45:35Z)
A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文参考訳（メタデータ） (2022-04-30T09:40:04Z)
MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである 3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文参考訳（メタデータ） (2022-04-23T05:20:38Z)
LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文参考訳（メタデータ） (2021-09-14T17:06:43Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。