論文の概要: Mixture of Experts for Low-Resource LLMs
- arxiv url: http://arxiv.org/abs/2605.17598v1
- Date: Sun, 17 May 2026 18:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.223627
- Title: Mixture of Experts for Low-Resource LLMs
- Title(参考訳): 低エネルギーLDMの専門家の混在
- Authors: Ori Bar Joseph, Smadar Arvatz, Noam Kayzer, Dan Revital, Sarel Weinberger,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは効率的なモデルスケーリングを実現するが、未表現言語をまたいだ専門家のルーティング動作はあまり理解されていない。
アーキテクチャ的に異なる2つのMoEモデル(Qwen3-30B-A3B)とハイブリッドのMamba-Transformer(Nemotron-3-Nano-30B-A3B)のルーティングダイナミクスを、形態的にリッチで低リソースなテストベッドとしてHebrewを用いて解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures enable efficient model scaling, yet expert routing behavior across underrepresented languages remains poorly understood. We analyze routing dynamics in two architecturally distinct MoE models -- a pure Transformer (Qwen3-30B-A3B) and a hybrid Mamba-Transformer (Nemotron-3-Nano-30B-A3B) -- using Hebrew as a morphologically rich, low-resource testbed. Both pre-trained models exhibit \emph{deep-layer routing collapse}: usage entropy drops sharply in final layers and tokens concentrate on a narrow expert subset, a pattern largely absent for English. Continual pre-training (CPT) on balanced bilingual data substantially corrects this imbalance, increasing entropy and shifting routing toward shared, language-agnostic experts; supervised fine-tuning (SFT) alone achieves less complete correction. Extending the analysis to Japanese reveals quantitatively consistent collapse signatures, providing cross-linguistic evidence that the phenomenon is a systematic consequence of pre-training underrepresentation rather than any language-intrinsic property. Routing improvements correlate with consistent downstream benchmark gains, positioning routing entropy and expert specialization as principled diagnostics for multilingual capacity in MoE systems.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは効率的なモデルスケーリングを実現するが、未表現言語をまたいだ専門家のルーティング動作は理解されていない。
アーキテクチャ的に異なる2つのMoEモデル(Qwen3-30B-A3B)とハイブリッドのMamba-Transformer(Nemotron-3-Nano-30B-A3B)のルーティングダイナミクスを、形態的にリッチで低リソースなテストベッドとしてHebrewを用いて解析する。
両方の事前訓練されたモデルは、'emph{deep-layer routing collapse}'を示す: 使用エントロピーは最終層で急激に低下し、トークンは狭い専門家のサブセットに集中する。
バランスの取れたバイリンガルデータに対する連続事前訓練(CPT)は、この不均衡を実質的に修正し、エントロピーを増大させ、言語に依存しない専門家へのルーティングをシフトさせる。
分析を日本語に拡張すると、定量的に一貫した崩壊シグネチャが明らかになり、言語固有の性質よりもむしろ事前学習の過小表現による体系的な結果であるという言語横断的な証拠が得られた。
ルーティングの改善は、一貫したダウンストリームベンチマークゲイン、ルーティングエントロピーの位置決め、専門家の専門化と相関する。
関連論文リスト
- Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation [65.69228479949693]
Mixture-of-Experts (MoE)モデルは、言語間での大幅なパフォーマンス格差を示す。
我々は、ルーティングアイソレーションを利用して言語固有のエキスパートワークを特定し、適応するフレームワークRISE(Routing isolation-guided Subnetwork Enhancement)を提案する。
論文 参考訳(メタデータ) (2026-04-04T04:56:35Z) - Retrofitting Earth System Models with Cadence-Limited Neural Operator Updates [3.9578288463123]
本稿では,瞬時モデル状態をバイアス補正傾向にマッピングする演算子学習フレームワークを提案する。
ERA5の再解析に向け、2年間のE3SMシミュレーションを訓練し、オペレーターは高度と季節にまたがって一般化する。
本フレームワークは, 長期的安定性, ポータビリティ, ケイデンス限定更新を重視し, 表現力のあるML演算子の有用性を実証する。
論文 参考訳(メタデータ) (2025-12-02T23:44:49Z) - Orchestrating Heterogeneous Experts: A Scalable MoE Framework with Anisotropy-Preserving Fusion [9.664206410314955]
国境を越えたeコマースは、極端な言語的多様性ときめ細かい意味的ニュアンスという2つの課題に直面している。
既存のアプローチは通常、単一のモノリシックな大規模言語モデル(LLM)のスケールアップに依存します。
本稿では,異なるオープンソース LLM の相補性を生かした,スケーラブルな粗粒混合処理(Mixture-of-Experts:MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:13:37Z) - Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。