論文の概要: Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation
- arxiv url: http://arxiv.org/abs/2510.17555v1
- Date: Mon, 20 Oct 2025 14:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.116926
- Title: Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation
- Title(参考訳): 言語融合ゲート:モデル自己拡張による言語認識デコーディング
- Authors: Collin Zhang, Fei Huang, Chenhan Yuan, Junyang Lin,
- Abstract要約: 本稿では,デコード時にトークンをフィルタリングする軽量なプラグインソリューションであるLanguage Confusion Gate (LCG)を紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
- 参考スコア(独自算出の注目度): 50.93756215410832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often experience language confusion, which is the unintended mixing of languages during text generation. Current solutions to this problem either necessitate model retraining or cannot differentiate between harmful confusion and acceptable code-switching. This paper introduces the Language Confusion Gate (LCG), a lightweight, plug-in solution that filters tokens during decoding without altering the base LLM. The LCG is trained using norm-adjusted self-distillation to predict appropriate language families and apply masking only when needed. Our method is based on the findings that language confusion is infrequent, correct-language tokens are usually among the top predictions, and output token embedding norms are larger for high-resource languages, which biases sampling. When evaluated across various models, including Qwen3, GPT-OSS, Gemma3, Llama3.1, LCG decreases language confusion significantly, often by an order of magnitude, without negatively impacting task performance. Code is available at https://github.com/collinzrj/language_confusion_gate.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば、テキスト生成中に意図しない混合言語である言語混乱を経験する。
この問題に対する現在の解決策は、モデルの再訓練を必要とするか、有害な混乱と許容されるコードスイッチングを区別できないかのいずれかである。
本稿では,Language Confusion Gate (LCG)について紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
提案手法は,言語混乱の頻度が低いこと,正しい言語トークンが最上位の予測対象であること,高リソース言語では出力トークン埋め込みノルムがより大きいこと,サンプリングにバイアスがかかること,などに基づく。
Qwen3、GPT-OSS、Gemma3、Llama3.1など様々なモデルで評価されると、LCGはタスクのパフォーマンスに悪影響を及ぼすことなく、しばしば桁違いに言語を混乱させる。
コードはhttps://github.com/collinzrj/lang_confusion_gateで公開されている。
関連論文リスト
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.37878669586302]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。
ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。
MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-10T16:49:12Z) - Controlling Language Confusion in Multilingual LLMs [0.0]
大規模な言語モデルは、意図しない言語で応答が部分的にまたは完全に生成される現象である言語混乱に悩まされることが多い。
本研究では,標準SFTに不要な出力スタイルのペナルティを付加するORPOを適用し,言語に精通した世代を効果的に抑制する。
論文 参考訳(メタデータ) (2025-05-25T12:15:31Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。