論文の概要: Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16538v1
- Date: Thu, 22 May 2025 11:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.253848
- Title: Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models
- Title(参考訳): 英語中心大規模言語モデルにおける言語融合の機械的理解と緩和
- Authors: Ercong Nie, Helmut Schmid, Hinrich Schütze,
- Abstract要約: 言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
- 参考スコア(独自算出の注目度): 49.09746599881631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language confusion -- where large language models (LLMs) generate unintended languages against the user's need -- remains a critical challenge, especially for English-centric models. We present the first mechanistic interpretability (MI) study of language confusion, combining behavioral benchmarking with neuron-level analysis. Using the Language Confusion Benchmark (LCB), we show that confusion points (CPs) -- specific positions where language switches occur -- are central to this phenomenon. Through layer-wise analysis with TunedLens and targeted neuron attribution, we reveal that transition failures in the final layers drive confusion. We further demonstrate that editing a small set of critical neurons, identified via comparative analysis with multilingual-tuned models, substantially mitigates confusion without harming general competence or fluency. Our approach matches multilingual alignment in confusion reduction for most languages and yields cleaner, higher-quality outputs. These findings provide new insights into the internal dynamics of LLMs and highlight neuron-level interventions as a promising direction for robust, interpretable multilingual language modeling.
- Abstract(参考訳): 大きな言語モデル(LLM)がユーザのニーズに対して意図しない言語を生成する言語混乱は、特に英語中心のモデルにとって、依然として重要な課題である。
本稿では,行動ベンチマークとニューロンレベルの分析を併用した,言語混乱に関する最初の機械論的解釈可能性(MI)研究について述べる。
言語融合ベンチマーク(LCB)を用いて、言語スイッチが発生する特定の位置である混乱点(CP)がこの現象の中心であることを示す。
TunedLensによる層解析と標的ニューロンの属性により、最終層の遷移障害が混乱を引き起こすことが明らかとなった。
さらに、多言語学習モデルとの比較分析により同定された、少数の臨界ニューロンの編集は、一般的な能力や流布を損なうことなく、実質的に混乱を緩和することを示した。
提案手法は,ほとんどの言語における混乱低減における多言語アライメントと一致し,よりクリーンで高品質な出力が得られる。
これらの知見は、LLMの内部力学に関する新たな洞察を与え、堅牢で解釈可能な多言語言語モデリングのための有望な方向としてニューロンレベルの介入を強調している。
関連論文リスト
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。
我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文 参考訳(メタデータ) (2024-10-17T05:43:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。