論文の概要: The Transfer Neurons Hypothesis: An Underlying Mechanism for Language Latent Space Transitions in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2509.17030v1
- Date: Sun, 21 Sep 2025 10:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.079296
- Title: The Transfer Neurons Hypothesis: An Underlying Mechanism for Language Latent Space Transitions in Multilingual LLMs
- Title(参考訳): 伝達ニューロン仮説:多言語LLMにおける言語遅延空間遷移のメカニズム
- Authors: Hinata Tezuka, Naoya Inoue,
- Abstract要約: 近年の研究では、デコーダベースのLLMにおける多言語入力のための処理フレームワークが提案されている。
本研究では,ニューロンモジュール内の特定のニューロンが,言語固有の潜在空間と共有意味潜在空間の間で表現を伝達する役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 5.152664482521929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have suggested a processing framework for multilingual inputs in decoder-based LLMs: early layers convert inputs into English-centric and language-agnostic representations; middle layers perform reasoning within an English-centric latent space; and final layers generate outputs by transforming these representations back into language-specific latent spaces. However, the internal dynamics of such transformation and the underlying mechanism remain underexplored. Towards a deeper understanding of this framework, we propose and empirically validate The Transfer Neurons Hypothesis: certain neurons in the MLP module are responsible for transferring representations between language-specific latent spaces and a shared semantic latent space. Furthermore, we show that one function of language-specific neurons, as identified in recent studies, is to facilitate movement between latent spaces. Finally, we show that transfer neurons are critical for reasoning in multilingual LLMs.
- Abstract(参考訳): 近年の研究では、デコーダベースのLLMにおける多言語入力のための処理フレームワークが提案されている。初期層は、入力を英語中心の言語に依存しない表現に変換し、中層は英語中心の潜在空間内で推論を行い、最終層はこれらの表現を言語固有の潜在空間に変換することで出力を生成する。
しかし、そのような変換の内部力学と基礎となるメカニズムはいまだ未解明のままである。
この枠組みのより深い理解に向けて、我々はThe Transfer Neurons hypothesis: MLPモジュール内の特定のニューロンが言語固有の潜伏空間と共有意味潜伏空間の間で表現を伝達する役割を担っていると提案し、実証的に検証する。
さらに,近年の研究では,言語特異的ニューロンの1つの機能として,潜伏空間間の移動を促進することが示されている。
最後に,多言語LPMにおける伝達ニューロンの推論が重要であることを示す。
関連論文リスト
- The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons [20.13484267765109]
事前学習中に多言語言語モデルがどのように進化するかを考察する。
我々は、各層にまたがる一様言語識別機能から、より特殊な層関数への遷移を観察する。
言語間の同じ概念に対する信頼性の高い予測因子として出現する特定のニューロンを同定する。
論文 参考訳(メタデータ) (2025-06-02T13:06:30Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation [7.376832526909754]
統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。
我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して継続的に更新する、特殊なニューロンを識別するアプローチであるNeuronを提案する。
論文 参考訳(メタデータ) (2024-04-17T09:33:19Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。