論文の概要: Refining Word-Based Grammatical Error Annotation for L2 Korean
- arxiv url: http://arxiv.org/abs/2605.30545v1
- Date: Thu, 28 May 2026 20:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.220589
- Title: Refining Word-Based Grammatical Error Annotation for L2 Korean
- Title(参考訳): L2韓国語における単語ベースの文法的誤りアノテーションの書き換え
- Authors: Jungyeul Park, Kyungtae Lim, Wonjun Oh, Benjamin Nguyen, Zihao Huang, Mengyang Qiu, Jayoung Song,
- Abstract要約: 韓国の文法的誤り訂正(K-GEC)では,単語に基づく評価と多くの学習者誤りのモーデムレベルの軌跡との間に構造的ミスマッチが生じる。
本稿では,既存の資源の3つの接続問題に対処することにより,L2韓国語に対する単語ベースの文法的誤りアノテーションを改良する。
- 参考スコア(独自算出の注目度): 10.887221248702879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Korean grammatical error correction (K-GEC) presents a structural mismatch between word-based evaluation and the morpheme-level locus of many learner errors. Postpositions and verbal endings are bound to lexical hosts, but they encode grammatical relations that must be represented in correction and evaluation. This paper refines word-based grammatical error annotation for L2 Korean by addressing three connected problems in existing resources: surface target realization, Korean-specific edit annotation, and single-reference evaluation. We reconstruct target sentences from the National Institute of Korean Language (NIKL) L2 corpus under morphologically constrained realization rules and convert its morpheme-level annotations into word-level \texttt{m2} edits. We then define a Korean ERRANT-style annotation scheme that preserves the MRU core while distinguishing functional morpheme errors, spelling errors, word boundary errors, and word order errors. We also augment the KoLLA corpus with an additional reference correction, yielding a multi-reference evaluation setting for Korean GEC. Empirical validation shows that the refined NIKL targets yield lower perplexity, the converted \texttt{m2} files achieve higher agreement with source-target edit representations, and the refined resources improve KoBART-based correction under the same model setting. Multi-reference KoLLA evaluation further reduces the penalty imposed on valid corrections that diverge from a single reference, especially for neural and prompted GEC systems. These results show that Korean GEC evaluation depends not only on correction models, but also on reference data and edit annotations that reflect Korean morphology, spacing, and correction variability.
- Abstract(参考訳): 韓国の文法的誤り訂正(K-GEC)では,単語に基づく評価と多くの学習者誤りのモーデムレベルの軌跡との間に構造的ミスマッチが生じる。
命題と動詞の終末は語彙ホストに拘束されるが、訂正と評価で表わさなければならない文法的関係を符号化する。
本稿では,L2韓国語に対する単語ベースの文法的誤りアノテーションを,表面目標実現,韓国語固有の編集アノテーション,単一参照評価という,既存の資源の3つの関連問題に対処することによって洗練する。
我々は,形態的に制約された実現規則の下で,国立韓国語研究所 (NIKL) L2コーパスの目標文を再構築し,その形態素レベルのアノテーションを単語レベルの \texttt{m2} 編集に変換する。
次に,機能的形態素誤り,スペル誤り,単語境界誤り,単語順序誤りを区別しながら,MRUコアを保存する韓国のERRANTスタイルのアノテーションスキームを定義する。
また,KoLLAコーパスを追加参照補正により拡張し,韓国GECのマルチ参照評価設定を得た。
実験的な検証では、改良されたNIKLターゲットは低いパープレキシティを達成し、変換された \texttt{m2} ファイルはソースターゲットの編集表現とのより高い一致を実現し、改良されたリソースは同じモデル設定でKoBARTベースの補正を改善する。
マルチリファレンスのKoLLA評価により、単一参照から分岐する有効な修正に課されるペナルティ、特にニューラルおよび引き起こされたGECシステムに対するペナルティはさらに減少する。
これらの結果から, 韓国のGEC評価は, 補正モデルだけでなく, 韓国の形態, 間隔, 修正の多様性を反映した参照データや編集アノテーションにも依存していることがわかった。
関連論文リスト
- KoGEC : Korean Grammatical Error Correction with Pre-trained Translation Models [0.8225943723988819]
本研究では,韓国の文法的誤り訂正システムKoGECを紹介する。
韓国のGECに対してNLLB(No Language Left Behind)モデルを微調整し,GPT-4やHCX-3のような大規模言語モデルと比較した。
その結果, 微調整NLLB (KoGEC) モデルは韓国のGECタスクにおいて GPT-4o と HCX-3 より優れていた。
論文 参考訳(メタデータ) (2025-06-13T03:10:15Z) - Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring [2.824980053889876]
我々は,文法的誤り訂正基準を追加することで,韓国語学習者コーパスを強化する。
韓国国立言語研究所のガイドラインに沿うルーブリックベースのスコアでコーパスを充実させます。
論文 参考訳(メタデータ) (2025-05-01T03:04:07Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation [26.48270086631483]
韓国の文法的誤りを幅広くカバーするデータセットを提供する。
次に韓国語で14のエラータイプを定義し、並列コーパスから自動アノテート可能なKAGASを提供する。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、現在使われている統計的韓国のGECシステム(Hanspell)よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-25T23:41:52Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:40:04Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。