論文の概要: JELV: A Judge of Edit-Level Validity for Evaluation and Automated Reference Expansion in Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2511.21700v1
- Date: Sun, 16 Nov 2025 05:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.339187
- Title: JELV: A Judge of Edit-Level Validity for Evaluation and Automated Reference Expansion in Grammatical Error Correction
- Title(参考訳): JELV:文法的誤り訂正における基準拡張の評価と自動評価のための編集レベル妥当性判定
- Authors: Yuhao Zhan, Yuqing Zhang, Jing Yuan, Qixiang Ma, Zhiqi Yang, Yu Gu, Zemin Liu, Fei Wu,
- Abstract要約: 我々は,文法性,忠実性,流布性から補正編集を検証するために,編集レベル妥当性審査官(JELV)を紹介した。
提案するPair-wise Edit-level Validityデータセット(PEVData)をベンチマークとして,JELVは2つの実装を提供する。
JELV を用いて LLM 生成した訂正候補をフィルタリングし,3,692 個のソース文を含むBEA19 の単一参照データセットを拡張した。
- 参考スコア(独自算出の注目度): 22.662896396339107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Grammatical Error Correction (GEC) systems suffer from limited reference diversity, leading to underestimated evaluation and restricted model generalization. To address this issue, we introduce the Judge of Edit-Level Validity (JELV), an automated framework to validate correction edits from grammaticality, faithfulness, and fluency. Using our proposed human-annotated Pair-wise Edit-level Validity Dataset (PEVData) as benchmark, JELV offers two implementations: a multi-turn LLM-as-Judges pipeline achieving 90% agreement with human annotators, and a distilled DeBERTa classifier with 85% precision on valid edits. We then apply JELV to reclassify misjudged false positives in evaluation and derive a comprehensive evaluation metric by integrating false positive decoupling and fluency scoring, resulting in state-of-the-art correlation with human judgments. We also apply JELV to filter LLM-generated correction candidates, expanding the BEA19's single-reference dataset containing 38,692 source sentences. Retraining top GEC systems on this expanded dataset yields measurable performance gains. JELV provides a scalable solution for enhancing reference diversity and strengthening both evaluation and model generalization.
- Abstract(参考訳): 既存の文法誤り訂正(GEC)システムは参照の多様性が限られており、過小評価とモデル一般化が制限される。
この問題に対処するために,文法性,忠実性,流布性から修正を検証するための自動フレームワークであるJELV(Jice of Edit-Level Validity)を導入する。
提案したPair-wise Edit-level Validity Dataset (PEVData) をベンチマークとして,マルチターンLLM-as-Judgesパイプラインの90%のアノテータとの一致を実現するとともに,有効編集精度85%の蒸留DeBERTa分類器を提供する。
評価において誤判定された偽陽性を再分類するためにJELVを適用し, 誤判定と流速スコアを組み合わせた総合的評価基準を導出し, 人間の判断と最先端の相関を導出する。
また、JELVを用いてLLM生成した修正候補をフィルタリングし、BEA19の単一参照データセットを38,692のソース文で拡張する。
この拡張データセットでトップのGECシステムをリトレーニングすると、測定可能なパフォーマンスが向上する。
JELVは、参照の多様性を高め、評価とモデル一般化の両方を強化するスケーラブルなソリューションを提供する。
関連論文リスト
- EVADE: LLM-Based Explanation Generation and Validation for Error Detection in NLI [36.91800117379075]
EVADEは、大規模な言語モデルを使用してエラーを検出するための説明を生成し、検証するためのフレームワークである。
HLVは、複数のラベルが同じインスタンスに対して有効である場合に発生する。
論文 参考訳(メタデータ) (2025-11-12T03:49:05Z) - Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes [2.9195489041890297]
裁判官としての大規模言語モデル(LaaJ)は、専門家レビューに代わるスケーラブルな代替手段を提供する。
検証がなければ、組織はモデルのアウトプットを評価するために未検証のLaaJを使用することで、丸い評価ループのリスクを負う。
SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T07:27:54Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。