論文の概要: CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04664v1
- Date: Thu, 08 Jan 2026 07:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.07504
- Title: CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models
- Title(参考訳): CRANE:多言語大言語モデルにおける言語特異的ニューロンの因果関係解析
- Authors: Yifan Le, Yunliang Li,
- Abstract要約: 言語能力がニューロンレベルでどのように組織されるかは、いまだに理解されていない。
機能的必要度の観点から言語特異性を再定義する関連性に基づく分析フレームワークであるCRANEを提案する。
- 参考スコア(独自算出の注目度): 0.021485350418225243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual large language models (LLMs) achieve strong performance across languages, yet how language capabilities are organized at the neuron level remains poorly understood. Prior work has identified language-related neurons mainly through activation-based heuristics, which conflate language preference with functional importance. Prior work has identified language-related neurons mainly through activation-based heuristics, which conflate language preference with functional importance. We propose CRANE, a relevance-based analysis framework that redefines language specificity in terms of functional necessity, identifying language-specific neurons through targeted neuron-level interventions. CRANE characterizes neuron specialization by their contribution to language-conditioned predictions rather than activation magnitude. Our implementation will be made publicly available. Neuron-level interventions reveal a consistent asymmetric pattern: masking neurons relevant to a target language selectively degrades performance on that language while preserving performance on other languages to a substantial extent, indicating language-selective but non-exclusive neuron specializations. Experiments on English, Chinese, and Vietnamese across multiple benchmarks, together with a dedicated relevance-based metric and base-to-chat model transfer analysis, show that CRANE isolates language-specific components more precisely than activation-based methods.
- Abstract(参考訳): 多言語大言語モデル(LLM)は言語間で高い性能を達成するが、言語能力がニューロンレベルでどのように組織化されているかは理解されていない。
これまでの研究は、主にアクティベーションに基づくヒューリスティックスを通じて言語関連ニューロンを特定しており、言語嗜好と機能的重要性を両立させている。
これまでの研究は、主にアクティベーションに基づくヒューリスティックスを通じて言語関連ニューロンを特定しており、言語嗜好と機能的重要性を両立させている。
CRANEは、機能的必要性の観点から言語特異性を再定義し、標的ニューロンレベルの介入を通じて言語特異的ニューロンを同定する、関連性に基づく分析フレームワークである。
CRANEは、アクティベーション・マグニチュードではなく、言語条件付き予測への貢献によってニューロンの特殊化を特徴付ける。
私たちの実装は公開されます。
標的言語に関連するニューロンのマスキングは、他の言語の性能をある程度保ちながら、その言語におけるパフォーマンスを選択的に低下させ、言語選択的で非排他的なニューロンの特殊化を示す。
英語、中国語、ベトナム語を複数のベンチマークで比較したところ、CRANEはアクティベーションベースの手法よりも正確に言語固有のコンポーネントを分離していることが示されている。
関連論文リスト
- Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation [9.518772041855923]
Llama-3.1-8B, Mistral-Nemo-12B, Aya-Expanse-8B & 32B の言語特異的ニューロンを21言語で解析した。
これらのニューロンはより深い層に集結し、非ラテン語のスクリプトはより高度な特殊化を示す。
不要な言語を非活性化し、望ましい言語をアクティベートし、より単純な代替アプローチよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-30T12:23:39Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.205821852762362]
言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文 参考訳(メタデータ) (2025-03-21T18:08:11Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [85.0284555835015]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらした。
多言語環境でのLLMの内部動作を探究する研究はほとんどない。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - BrainLLM: Generative Language Decoding from Brain Recordings [77.66707255697706]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。