論文の概要: DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2606.01062v1
- Date: Sun, 31 May 2026 07:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.183932
- Title: DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts
- Title(参考訳): DAG-MoE:Mixture-of-Expertsにおける単純な混合から構造凝集へ
- Authors: Jiarui Feng, Hanqing Zeng, Karish Grover, Ruizhong Qiu, Yinglong Xia, Qiang Zhang, Qifan Wang, Ren Chen, Dongqi Fu, Jiayi Liu, Zhoukai Zhao, Xiangjun Fan, Benyu Zhang, Yixin Chen,
- Abstract要約: 本研究では, 標準重み付け集約を構造集約に置き換えることにより, 専門家やルータを変更することなく, 専門家合成空間を拡大することを示す。
DAG-MoEは軽量モジュールを用いて,選択した専門家の最適な集約構造を自動的に学習するスパースMoEフレームワークである。
- 参考スコア(独自算出の注目度): 56.175408382091796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models have become a leading approach for decoupling parameter count from computational cost in large language models, yet effectively scaling MoE performance remains a challenge. Prior work shows that fine-grained experts enlarge the space of expert combinations and improve flexibility, but they also impose substantial routing overhead, creating a new scalability bottleneck. In this paper, we explore a complementary axis for scaling -- how expert outputs are aggregated. We theoretically show that replacing the standard weighted-summation aggregation with structural aggregation expands the expert-combination space without altering the experts or router, and enables possible multi-step reasoning within a single MoE layer. To this end, we propose DAG-MoE, a sparse MoE framework that employs a lightweight module to automatically learn the optimal aggregation structure among the selected experts. Extensive experiments under standard language modeling settings show that DAG-MoE consistently improves performance in both pretraining and fine-tuning, surpassing traditional MoE baselines.
- Abstract(参考訳): 混合専門家モデル(MoE)は、大規模言語モデルにおける計算コストからパラメータカウントを分離する主要なアプローチとなっているが、効果的にMoE性能を拡大することは依然として課題である。
以前の研究によると、きめ細かい専門家は、専門家の組み合わせのスペースを拡大し、柔軟性を向上させる一方で、ルーティングのオーバーヘッドを大幅に増加させ、新たなスケーラビリティのボトルネックを生み出している。
本稿では,専門家のアウトプットの集約方法として,スケーリングの補完軸について検討する。
理論的には、標準重み付け和集合を構造的集約に置き換えることで、専門家やルータを変更することなく専門家合成空間を拡大し、単一のMoE層内で多段階の推論を可能にする。
そこで本研究では,軽量モジュールを用いたスパースMoEフレームワークであるDAG-MoEを提案する。
標準言語モデリング設定下での大規模な実験は、DAG-MoEが従来のMoEベースラインを超え、事前トレーニングと微調整の両方のパフォーマンスを一貫して改善していることを示している。
関連論文リスト
- ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文 参考訳(メタデータ) (2026-02-17T11:50:58Z) - Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe [51.26601054313749]
Diffusion MoEモデルに対する最近の取り組みは、主により洗練されたルーティングメカニズムの開発に焦点を当てている。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,効率的な拡散MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
本稿では,潜在空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:52:31Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。
スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。
グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T15:58:02Z) - OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。