論文の概要: A Formal Framework for Fluency-based Multi-Reference Evaluation in Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2510.06749v1
- Date: Wed, 08 Oct 2025 08:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.360967
- Title: A Formal Framework for Fluency-based Multi-Reference Evaluation in Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正における周波数に基づくマルチ参照評価のための形式的枠組み
- Authors: Eitan Klinger, Zihao Huang, Tran Minh Nguyen, Emma Jayeon Park, Yige Chen, Yang Gu, Qingyu Gao, Siliang Liu, Mengyang Qiu, Jungyeul Park,
- Abstract要約: 既存のフレームワークは、主に編集ベースと英語中心であり、システムと参照編集の間の厳格なアライメントに依存している。
本稿では,複数の正当性修正に対する集合問題として$n$-gramの類似性を考慮し,テキスト拡散に基づくマルチ参照評価のための形式的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.020566998995696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating grammatical error correction requires metrics that reflect the diversity of valid human corrections rather than privileging a single reference. Existing frameworks, largely edit-based and English-centric, rely on rigid alignments between system and reference edits, limiting their applicability in multilingual and generative settings. This paper introduces a formal framework for \textit{fluency-based multi-reference evaluation}, framing $n$-gram similarity as an aggregation problem over multiple legitimate corrections. Within this formulation, we instantiate GLEU through four aggregation strategies--\textsc{select-best}, \textsc{simple-average}, \textsc{weighted-average}, and \textsc{merged-counts}--and analyze their properties of boundedness, monotonicity, and sensitivity to reference variation. Empirical results on Czech, Estonian, Ukrainian, and Chinese corpora show that these strategies capture complementary aspects of fluency and coverage. The framework unifies multi-reference evaluation into a principled, fluency-oriented approach that incorporates linguistic diversity without penalizing legitimate variation.
- Abstract(参考訳): 文法的誤り訂正を評価するには、単一の参照を特権化するのではなく、有効な人間の修正の多様性を反映したメトリクスが必要である。
既存のフレームワークは、主に編集ベースと英語中心であり、システムと参照編集の間の厳格なアライメントに依存しており、多言語および生成的設定における適用性を制限する。
本稿では,複数の正当性修正に対する集約問題として$n$-gram類似性をフレーミングする,textit{fluency-based multi-reference evaluation} の形式的フレームワークを提案する。
この定式化の中で、GLEUを4つのアグリゲーション戦略(-\textsc{select-best}, \textsc{simple-average}, \textsc{weighted-average}, \textsc{merged-counts})でインスタンス化し、その境界性、単調性、参照変動に対する感度を解析する。
チェコ、エストニア、ウクライナ、中国のコーポラにおける実証的な結果は、これらの戦略が流布と報道の相補的な側面を捉えていることを示している。
このフレームワークは、多参照評価を、正当なバリエーションを課すことなく、言語多様性を取り入れた原則付き、流布指向のアプローチに統一する。
関連論文リスト
- SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Unsupervised Word Translation Pairing using Refinement based Point Set
Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。
現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。
本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文 参考訳(メタデータ) (2020-11-26T09:51:29Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。