論文の概要: Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs
- arxiv url: http://arxiv.org/abs/2602.00945v1
- Date: Sun, 01 Feb 2026 00:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.478297
- Title: Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs
- Title(参考訳): ニューラルFOXP2-LLMにおける目標言語改善のための言語特異的ニューロンステアリング
- Authors: Anusa Saha, Tanmay Joshi, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: 言語デフォルト性は、スパースで低ランクな制御回路、言語ニューロンによって制御されていると我々は主張する。
我々は,言語特異的ニューロンを操るモデルで選択言語(ヒンディー語またはスペイン語)をプライマリにするNeural FOXP2を導入する。
- 参考スコア(独自算出の注目度): 18.653643003491695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are multilingual by training, yet their lingua franca is often English, reflecting English language dominance in pretraining. Other languages remain in parametric memory but are systematically suppressed. We argue that language defaultness is governed by a sparse, low-rank control circuit, language neurons, that can be mechanistically isolated and safely steered. We introduce Neural FOXP2, that makes a chosen language (Hindi or Spanish) primary in a model by steering language-specific neurons. Neural FOXP2 proceeds in three stages: (i) Localize: We train per-layer SAEs so each activation decomposes into a small set of active feature components. For every feature, we quantify English vs. Hindi/Spanish selectivity overall logit-mass lift toward the target-language token set. Tracing the top-ranked features back to their strongest contributing units yields a compact language-neuron set. (ii) Steering directions: We localize controllable language-shift geometry via a spectral low-rank analysis. For each layer, we build English to target activation-difference matrices and perform layerwise SVD to extract the dominant singular directions governing language change. The eigengap and effective-rank spectra identify a compact steering subspace and an empirically chosen intervention window (where these directions are strongest and most stable). (iii) Steer: We apply a signed, sparse activation shift targeted to the language neurons. Concretely, within low to mid layers we add a positive steering along the target-language dominant directions and a compensating negative shift toward the null space for the English neurons, yielding controllable target-language defaultness.
- Abstract(参考訳): LLMは訓練によって多言語化されているが、その言語フランカはしばしば英語であり、事前訓練における英語の優位性を反映している。
他の言語はパラメトリックメモリに残っているが、体系的に抑圧されている。
言語デフォルト性はスパースで低ランクな制御回路、言語ニューロンによって制御され、機械的に分離され、安全に制御される。
我々は,言語特異的ニューロンを操るモデルで選択言語(ヒンディー語またはスペイン語)をプライマリにするNeural FOXP2を導入する。
神経性FOXP2は3段階進行する。
(i)ローカライズ: レイヤごとのSAEをトレーニングするため、各アクティベーションは、少数のアクティブな特徴コンポーネントに分解される。
すべての特徴について、ターゲット言語トークンセットに向けて、英語対ヒンディー語/スペイン語選択性全体のロジット質量リフトを定量化する。
最上位の機能を最強のコントリビューションユニットに戻せば、コンパクトな言語-ニューロンセットが得られる。
(II) ステアリング方向: スペクトル低ランク解析による制御可能な言語シフト幾何の局在化を行う。
各層に対して、アクティベーション・ディファレンス・マトリクスをターゲットとした英語を構築し、階層的にSVDを行い、言語変化を規定する支配的な特異方向を抽出する。
固有ギャップと有効ランクスペクトルは、コンパクトなステアリング部分空間と経験的に選択された介入窓(これらの方向が最強で最も安定である)を識別する。
ステア: 言語ニューロンを標的とした, サイン付き, スパースな活性化シフトを適用した。
具体的には、低層から中層にかけて、ターゲット言語支配方向に沿った正の操舵と、英語ニューロンのヌル空間への負のシフトを補正し、制御可能なターゲット標準のデフォルト性を与える。
関連論文リスト
- Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation [9.518772041855923]
Llama-3.1-8B, Mistral-Nemo-12B, Aya-Expanse-8B & 32B の言語特異的ニューロンを21言語で解析した。
これらのニューロンはより深い層に集結し、非ラテン語のスクリプトはより高度な特殊化を示す。
不要な言語を非活性化し、望ましい言語をアクティベートし、より単純な代替アプローチよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-30T12:23:39Z) - Causal Language Control in Multilingual Transformers via Sparse Feature Steering [7.754609745940422]
マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
論文 参考訳(メタデータ) (2025-07-17T06:49:16Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [85.0284555835015]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらした。
多言語環境でのLLMの内部動作を探究する研究はほとんどない。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。