論文の概要: NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension
- arxiv url: http://arxiv.org/abs/2603.05046v1
- Date: Thu, 05 Mar 2026 10:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.192884
- Title: NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension
- Title(参考訳): NeuronMoE: 効率的な多言語LDM拡張のための神経誘導混合試験
- Authors: Rongzhi Li, Hitomi Yanaka,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、スパース言語固有のパラメータを追加することでこの問題に対処する。
現在のアプローチでは、レイヤレベルの類似性に基づいて専門家を割り当てているが、言語処理は個々のニューロンに対してきめ細かい特殊化を示す。
我々は,すべてのトランスフォーマーコンポーネントをまたいだ言語固有のニューロンを分析し,各レイヤごとの専門的な割り当てをガイドする手法である$textbfNeuronMoE$を提案する。
- 参考スコア(独自算出の注目度): 16.52781433504377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending large language models to low-resource languages is essential for global accessibility, but training separate models per language is prohibitively expensive. Mixture-of-Experts (MoE) architectures address this by adding sparse language-specific parameters, but determining how many experts each layer needs remains an open question. Current approaches allocate experts based on layer-level similarity, yet language processing exhibits fine-grained specialization at individual neurons. We propose $\textbf{NeuronMoE}$, a method that analyzes language-specific neurons across all transformer components to guide expert allocation per layer based on empirically measured cross-lingual neuron diversity. Applied to Llama-3.2-3B for low-resource languages (Greek, Turkish, and Hungarian), this approach achieves approximately 40% average parameter reduction while matching the performance of the LayerMoE baseline. We find that low-resource language experts independently develop neuron specialization patterns mirroring the high-resource language, which are concentrated in early and late layers. This reveals potential universal architectural principles in how multilingual models organize linguistic knowledge.
- Abstract(参考訳): 大規模な言語モデルを低リソース言語に拡張することは、グローバルなアクセシビリティには不可欠だが、言語毎に個別のモデルをトレーニングすることは、違法に高価である。
Mixture-of-Experts (MoE)アーキテクチャは、スパース言語固有のパラメータを追加することでこの問題に対処する。
現在のアプローチでは、レイヤレベルの類似性に基づいて専門家を割り当てているが、言語処理は個々のニューロンに対してきめ細かい特殊化を示す。
実験的に測定された言語間交叉ニューロンの多様性に基づいて,すべてのトランスフォーマーコンポーネントをまたいだ言語特異的ニューロンを分析し,各レイヤごとのエキスパートアロケーションを誘導する手法である。
低リソース言語(ギリシャ語、トルコ語、ハンガリー語)のLlama-3.2-3Bに適用すると、この手法はLayerMoEベースラインのパフォーマンスに適合しながら、約40%のパラメータ削減を実現する。
低リソース言語の専門家は、早期層と後期層に集中している高リソース言語を反映したニューロンの特殊化パターンを独立して開発している。
これは多言語モデルが言語知識をどう構成するかにおいて、潜在的に普遍的なアーキテクチャの原則を明らかにする。
関連論文リスト
- Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering [61.0787902713059]
本研究では,中間層におけるルーティング動作を,支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案する。
私たちのコードはhttp://conctsai.com/multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
論文 参考訳(メタデータ) (2026-01-20T15:04:25Z) - Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models [11.719190735841407]
大規模な言語モデルは、言語間で不均一なパフォーマンスを示す。
表現不足言語におけるLLMの単言語機能向上のためのフレームワークを提案する。
言語活性化確率エントロピーを用いて言語特異的ニューロンを同定し,これらのニューロンに付随する重みのみを微細トンネルで同定する。
論文 参考訳(メタデータ) (2025-10-15T14:14:49Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - RetrieveAll: A Multilingual Named Entity Recognition Framework with Large Language Models [7.867158538366131]
既存の多言語NER法は多言語適応過程において言語干渉に直面する。
動的LoRAに基づく多言語NERフレームワークRetrieveAllを提案する。
本稿では,データ固有のポテンシャルをフル活用した粒界知識拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:52:18Z) - Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.205821852762362]
言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文 参考訳(メタデータ) (2025-03-21T18:08:11Z) - Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts [29.091853631327304]
医療用大規模言語モデルをローカル言語に適応させることで、医療サービスへのアクセス障壁を減らすことができる。
まず、高品質な医療データセットを構築し、その品質を確保するために分析を行う。
言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T15:31:54Z) - On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.32174349956148]
多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析
言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。
推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
論文 参考訳(メタデータ) (2024-04-03T03:37:22Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。