論文の概要: Multilingual Grammatical Error Annotation: Combining Language-Agnostic Framework with Language-Specific Flexibility
- arxiv url: http://arxiv.org/abs/2506.07719v1
- Date: Mon, 09 Jun 2025 13:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.956202
- Title: Multilingual Grammatical Error Annotation: Combining Language-Agnostic Framework with Language-Specific Flexibility
- Title(参考訳): 多言語文法的誤りアノテーション:言語に依存しないフレームワークと言語固有の柔軟性を組み合わせる
- Authors: Mengyang Qiu, Tran Minh Nguyen, Zihao Huang, Zelong Li, Yang Gu, Qingyu Gao, Siliang Liu, Jungyeul Park,
- Abstract要約: 我々は多言語文法的エラーアノテーションのための標準化されたモジュラーフレームワークを導入する。
我々のアプローチは言語に依存しない基盤と構造化言語固有の拡張を組み合わせることで、言語間の一貫性と柔軟性を可能にします。
この作業は、言語間のスケーラブルで解釈可能なGECアノテーションをサポートし、多言語設定におけるより一貫性のある評価を促進する。
- 参考スコア(独自算出の注目度): 4.524074577209036
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grammatical Error Correction (GEC) relies on accurate error annotation and evaluation, yet existing frameworks, such as $\texttt{errant}$, face limitations when extended to typologically diverse languages. In this paper, we introduce a standardized, modular framework for multilingual grammatical error annotation. Our approach combines a language-agnostic foundation with structured language-specific extensions, enabling both consistency and flexibility across languages. We reimplement $\texttt{errant}$ using $\texttt{stanza}$ to support broader multilingual coverage, and demonstrate the framework's adaptability through applications to English, German, Czech, Korean, and Chinese, ranging from general-purpose annotation to more customized linguistic refinements. This work supports scalable and interpretable GEC annotation across languages and promotes more consistent evaluation in multilingual settings. The complete codebase and annotation tools can be accessed at https://github.com/open-writing-evaluation/jp_errant_bea.
- Abstract(参考訳): Grammatical Error Correction (GEC) は正確なエラーアノテーションと評価に依存しているが、$\texttt{errant}$のような既存のフレームワークは、型的に多様な言語に拡張された場合に制限に直面している。
本稿では,多言語文法的エラーアノテーションのための標準化されたモジュール型フレームワークを提案する。
我々のアプローチは、言語に依存しない基盤と構造化言語固有の拡張を組み合わせることで、言語間の一貫性と柔軟性の両方を可能にします。
より広範な多言語カバレッジをサポートするために$\texttt{stanza}$を使用して$\texttt{errant}$を再実装し、汎用アノテーションからよりカスタマイズされた言語改良まで、英語、ドイツ語、チェコ語、韓国語、中国語への適用を通じてフレームワークの適応性を実証する。
この作業は、言語間のスケーラブルで解釈可能なGECアノテーションをサポートし、多言語設定におけるより一貫性のある評価を促進する。
完全なコードベースとアノテーションツールはhttps://github.com/open-writing-evaluation/jp_errant_bea.comからアクセスすることができる。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。