論文の概要: ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns
- arxiv url: http://arxiv.org/abs/2602.15521v1
- Date: Tue, 17 Feb 2026 11:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.054084
- Title: ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns
- Title(参考訳): ExpertWeaver: GLUアクティベーションパターンによる高密度LLMにおける一貫性のあるMoEのアンロック
- Authors: Ziyu Zhao, Tong Zhu, Zhi Zhang, Tiantian Fan, Jinluan Yang, Kun Kuang, Zhongyu Wei, Fei Wu, Yu Cheng,
- Abstract要約: Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
- 参考スコア(独自算出の注目度): 68.61814799047956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) effectively scales model capacity while preserving computational efficiency through sparse expert activation. However, training high-quality MoEs from scratch is prohibitively expensive. A promising alternative is to convert pretrained dense models into sparse MoEs. Existing dense-to-MoE methods fall into two categories: \textbf{dynamic structural pruning} that converts dense models into MoE architectures with moderate sparsity to balance performance and inference efficiency, and \textbf{downcycling} approaches that use pretrained dense models to initialize highly sparse MoE architectures. However, existing methods break the intrinsic activation patterns within dense models, leading to suboptimal expert construction. In this work, we argue that the Gated Linear Unit (GLU) mechanism provides a natural blueprint for dense-to-MoE conversion. We show that the fine-grained neural-wise activation patterns of GLU reveal a coarse-grained structure, uncovering an inherent MoE architecture composed of consistently activated universal neurons and dynamically activated specialized neurons. Leveraging this discovery, we introduce ExpertWeaver, a training-free framework that partitions neurons according to their activation patterns and constructs shared experts and specialized routed experts with layer-adaptive configurations. Our experiments demonstrate that ExpertWeaver significantly outperforms existing methods, both as a training-free dynamic structural pruning technique and as a downcycling strategy for superior MoE initialization.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
しかし、高品質なMoEをゼロからトレーニングすることは違法に高価である。
有望な代替手段は、事前訓練された高密度モデルを粗いMoEに変換することである。
既存の高密度から高密度への手法は、2つのカテゴリに分類される: 密度モデルを適度な間隔で MoE アーキテクチャに変換して性能と推論効率のバランスをとる \textbf{dynamic structure pruning} と、事前訓練された高密度モデルを使用して高度にスパースした MoE アーキテクチャを初期化する \textbf{downcycling} アプローチ。
しかし、既存の手法は密集モデルにおける本質的な活性化パターンを破り、準最適専門家構築へと繋がる。
本研究では, Gated Linear Unit (GLU) 機構が高密度から高密度への変換に自然な青写真を提供すると主張している。
GLUの微細な神経活動パターンは粗い粒状構造を呈し、一貫した活性化する普遍ニューロンと動的に活性化する特殊ニューロンからなる固有のMoEアーキテクチャを明らかにする。
この発見を活用して、アクティベーションパターンに従ってニューロンを分割するトレーニング不要のフレームワークであるExpertWeaverを紹介した。
実験の結果,ExpertWeaverはトレーニング不要な動的構造解析手法や,MoE初期化を向上するためのダウンサイクル戦略として,既存の手法よりも優れていることがわかった。
関連論文リスト
- Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe [51.26601054313749]
Diffusion MoEモデルに対する最近の取り組みは、主により洗練されたルーティングメカニズムの開発に焦点を当てている。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,効率的な拡散MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
本稿では,潜在空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:52:31Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning [19.038272193170297]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
S'MoREは、残余のサブツリーを通して入力トークンをルーティングすることで、少数の低ランク行列をインスタンス化し組み立てることで、多くの専門家の能力をエミュレートする。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。