論文の概要: Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation
- arxiv url: http://arxiv.org/abs/2510.17555v1
- Date: Mon, 20 Oct 2025 14:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.116926
- Title: Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation
- Title(参考訳): 言語融合ゲート:モデル自己拡張による言語認識デコーディング
- Authors: Collin Zhang, Fei Huang, Chenhan Yuan, Junyang Lin,
- Abstract要約: 本稿では,デコード時にトークンをフィルタリングする軽量なプラグインソリューションであるLanguage Confusion Gate (LCG)を紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
- 参考スコア(独自算出の注目度): 50.93756215410832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often experience language confusion, which is the unintended mixing of languages during text generation. Current solutions to this problem either necessitate model retraining or cannot differentiate between harmful confusion and acceptable code-switching. This paper introduces the Language Confusion Gate (LCG), a lightweight, plug-in solution that filters tokens during decoding without altering the base LLM. The LCG is trained using norm-adjusted self-distillation to predict appropriate language families and apply masking only when needed. Our method is based on the findings that language confusion is infrequent, correct-language tokens are usually among the top predictions, and output token embedding norms are larger for high-resource languages, which biases sampling. When evaluated across various models, including Qwen3, GPT-OSS, Gemma3, Llama3.1, LCG decreases language confusion significantly, often by an order of magnitude, without negatively impacting task performance. Code is available at https://github.com/collinzrj/language_confusion_gate.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば、テキスト生成中に意図しない混合言語である言語混乱を経験する。
この問題に対する現在の解決策は、モデルの再訓練を必要とするか、有害な混乱と許容されるコードスイッチングを区別できないかのいずれかである。
本稿では,Language Confusion Gate (LCG)について紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
提案手法は,言語混乱の頻度が低いこと,正しい言語トークンが最上位の予測対象であること,高リソース言語では出力トークン埋め込みノルムがより大きいこと,サンプリングにバイアスがかかること,などに基づく。
Qwen3、GPT-OSS、Gemma3、Llama3.1など様々なモデルで評価されると、LCGはタスクのパフォーマンスに悪影響を及ぼすことなく、しばしば桁違いに言語を混乱させる。
コードはhttps://github.com/collinzrj/lang_confusion_gateで公開されている。
関連論文リスト
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.37878669586302]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。
ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。
MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-10T16:49:12Z) - Smoothie-Qwen: Post-Hoc Smoothing to Reduce Language Bias in Multilingual LLMs [4.881694369042022]
Smoothie-Qwenは、リトレーニングなしに言語のバイアスを軽減する軽量でポストホックな方法である。
提案手法はQwenモデルに適用し,意図しない中国語の出力を95%以上削減する。
論文 参考訳(メタデータ) (2025-07-08T05:30:51Z) - Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text [25.05270733872823]
コードスイッチング(英: Code-switching、CSW)とは、1つの言説の中で2つ以上の言語を交互に行う行為である。
大規模言語モデル(LLM)は現在、コンテンツと通信生成の中心となっている。
論文 参考訳(メタデータ) (2025-06-16T21:19:27Z) - Controlling Language Confusion in Multilingual LLMs [0.0]
大規模な言語モデルは、意図しない言語で応答が部分的にまたは完全に生成される現象である言語混乱に悩まされることが多い。
本研究では,標準SFTに不要な出力スタイルのペナルティを付加するORPOを適用し,言語に精通した世代を効果的に抑制する。
論文 参考訳(メタデータ) (2025-05-25T12:15:31Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。