論文の概要: KoGEC : Korean Grammatical Error Correction with Pre-trained Translation Models
- arxiv url: http://arxiv.org/abs/2506.11432v1
- Date: Fri, 13 Jun 2025 03:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.640579
- Title: KoGEC : Korean Grammatical Error Correction with Pre-trained Translation Models
- Title(参考訳): KoGEC : 事前学習翻訳モデルによる韓国語の文法的誤り訂正
- Authors: Taeeun Kim, Semin Jeong, Youngsook Song,
- Abstract要約: 本研究では,韓国の文法的誤り訂正システムKoGECを紹介する。
韓国のGECに対してNLLB(No Language Left Behind)モデルを微調整し,GPT-4やHCX-3のような大規模言語モデルと比較した。
その結果, 微調整NLLB (KoGEC) モデルは韓国のGECタスクにおいて GPT-4o と HCX-3 より優れていた。
- 参考スコア(独自算出の注目度): 0.8225943723988819
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This research introduces KoGEC, a Korean Grammatical Error Correction system using pre\--trained translation models. We fine-tuned NLLB (No Language Left Behind) models for Korean GEC, comparing their performance against large language models like GPT-4 and HCX-3. The study used two social media conversation datasets for training and testing. The NLLB models were fine-tuned using special language tokens to distinguish between original and corrected Korean sentences. Evaluation was done using BLEU scores and an "LLM as judge" method to classify error types. Results showed that the fine-tuned NLLB (KoGEC) models outperformed GPT-4o and HCX-3 in Korean GEC tasks. KoGEC demonstrated a more balanced error correction profile across various error types, whereas the larger LLMs tended to focus less on punctuation errors. We also developed a Chrome extension to make the KoGEC system accessible to users. Finally, we explored token vocabulary expansion to further improve the model but found it to decrease model performance. This research contributes to the field of NLP by providing an efficient, specialized Korean GEC system and a new evaluation method. It also highlights the potential of compact, task-specific models to compete with larger, general-purpose language models in specialized NLP tasks.
- Abstract(参考訳): 本研究は韓国語文法誤り訂正システムKoGECを紹介する。
韓国のGECに対してNLLB(No Language Left Behind)モデルを微調整し,GPT-4やHCX-3のような大規模言語モデルと比較した。
この研究は、トレーニングとテストにソーシャルメディアの会話データセットを2つ使用した。
NLLBモデルは、原文と訂正された韓国語の文を区別するために、特別な言語トークンを使用して微調整された。
BLEUスコアと"LLM as judge"メソッドを用いて、エラータイプを分類した。
その結果, 微調整NLLB (KoGEC) モデルは韓国のGECタスクにおいて GPT-4o と HCX-3 より優れていた。
KoGECは様々なエラータイプにまたがってよりバランスのとれたエラー訂正プロファイルを示した。
また、ユーザがKoGECシステムにアクセスできるようにするためのChromeエクステンションも開発しました。
最後に, モデルのさらなる改良を目的としたトークン語彙拡張について検討したが, モデル性能の低下が判明した。
本研究は,効率の良い韓国のGECシステムと新たな評価手法を提供することにより,NLPの分野に寄与する。
また、特定のNLPタスクにおいて、より大型で汎用的な言語モデルと競合する、コンパクトでタスク固有のモデルの可能性を強調している。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Efficient and Interpretable Grammatical Error Correction with Mixture of Experts [33.748193858033346]
文法的誤り訂正のための混合専門家モデルMoECEを提案する。
本モデルでは,有効パラメータの3倍少ないT5-XLの性能を実現する。
論文 参考訳(メタデータ) (2024-10-30T23:27:54Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation [26.48270086631483]
韓国の文法的誤りを幅広くカバーするデータセットを提供する。
次に韓国語で14のエラータイプを定義し、並列コーパスから自動アノテート可能なKAGASを提供する。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、現在使われている統計的韓国のGECシステム(Hanspell)よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-25T23:41:52Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。