Fugu-MT 論文翻訳(概要): CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction

論文の概要: CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction

arxiv url: http://arxiv.org/abs/2407.00934v1
Date: Mon, 1 Jul 2024 03:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 00:55:54.631125
Title: CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction
Title（参考訳）: CLEME2.0:文法的誤り訂正のための拡張編集によるより解釈可能な評価を目指して
Authors: Jingheng Ye, Zishan Xu, Yinghui Li, Xuxin Cheng, Linlin Song, Qingyu Zhou, Hai-Tao Zheng, Ying Shen, Xin Su,
Abstract要約: 本稿では,文法的誤り訂正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。 GECシステムの4つの基本次元を記述可能な基準ベース評価戦略であるCLEME2.0を提案する。
参考スコア（独自算出の注目度）: 28.533044857379647
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper focuses on improving the interpretability of Grammatical Error Correction (GEC) metrics, which receives little attention in previous studies. To bridge the gap, we propose CLEME2.0, a reference-based evaluation strategy that can describe four elementary dimensions of GEC systems, namely hit-correction, error-correction, under-correction, and over-correction. They collectively contribute to revealing the critical characteristics and locating drawbacks of GEC systems. Evaluating systems by Combining these dimensions leads to high human consistency over other reference-based and reference-less metrics. Extensive experiments on 2 human judgement datasets and 6 reference datasets demonstrate the effectiveness and robustness of our method. All the codes will be released after the peer review.
Abstract（参考訳）: 本稿では,従来の研究ではほとんど注目されていない文法的誤り補正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。このギャップを埋めるために、我々は、GECシステムの4つの基本次元、すなわち、ヒット補正、エラー補正、アンダー補正、オーバー補正を記述できる基準ベースの評価戦略であるCLEME2.0を提案する。それらは総合的に、GECシステムの重要な特徴を明らかにし、欠点を特定することに寄与している。これらの次元を組み合わせることでシステムを評価することは、他の参照ベースおよび参照レスメトリクスよりも高い一貫性をもたらす。 2つの人的判断データセットと6つの基準データセットに関する大規模な実験により,本手法の有効性とロバスト性を実証した。ピアレビューの後、すべてのコードがリリースされる。

関連論文リスト

Corrections Meet Explanations: A Unified Framework for Explainable Grammatical Error Correction [29.583603444317855]
本稿では,説明・修正タスクを生成的に統合した統一的な説明可能なGECフレームワークであるEXGECを紹介する。様々なNLPモデル(BART、T5、Llama3)の結果、EXGECモデルは両方のタスクにおいてシングルタスクベースラインを超えている。
論文参考訳（メタデータ） (2025-02-21T07:42:33Z)
LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文参考訳（メタデータ） (2024-03-26T06:12:21Z)
Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。人間の評価を2つの異なる粒度で補正する。その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文参考訳（メタデータ） (2024-03-05T05:53:09Z)
Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-24T01:47:56Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。 MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文参考訳（メタデータ） (2023-11-23T08:34:37Z)
RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文参考訳（メタデータ） (2023-10-11T08:33:23Z)
Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。従来の評価手法では、システム機能や目的を完全に把握できない。
論文参考訳（メタデータ） (2023-08-17T13:45:35Z)
CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文参考訳（メタデータ） (2023-05-18T08:57:17Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文参考訳（メタデータ） (2022-04-30T09:40:04Z)
A Self-Refinement Strategy for Noise Reduction in Grammatical Error Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文参考訳（メタデータ） (2020-10-07T04:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。