論文の概要: Path-Constrained Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2603.18297v1
- Date: Wed, 18 Mar 2026 21:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.855436
- Title: Path-Constrained Mixture-of-Experts
- Title(参考訳): パス制約ミクチャー・オブ・エクササイズ
- Authors: Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly,
- Abstract要約: MoEルーティングは各レイヤの専門家を独立して選択する。
本稿では,連続層にまたがるルータパラメータを共有するパスモエを提案する。
0.9Bおよび16Bパラメータモデルの実験では、独立ルーティングよりも複雑なタスクと下流タスクが一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 23.80197713200086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) architectures enable efficient scaling by activating only a subset of parameters for each input. However, conventional MoE routing selects each layer's experts independently, creating N^L possible expert paths -- for N experts across L layers. This far exceeds typical training set sizes, leading to statistical inefficiency as the model may not learn meaningful structure over such a vast path space. To constrain it, we propose \pathmoe, which shares router parameters across consecutive layers. Experiments on 0.9B and 16B parameter models demonstrate consistent improvements on perplexity and downstream tasks over independent routing, while eliminating the need for auxiliary load balancing losses. Analysis reveals that tokens following the same path naturally cluster by linguistic function, with \pathmoe{} producing more concentrated groups, better cross-layer consistency, and greater robustness to routing perturbations. These results offer a new perspective for understanding MoE architectures through the lens of expert paths.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)アーキテクチャは、各入力に対するパラメータのサブセットのみを活性化することにより、効率的なスケーリングを可能にする。
しかし、従来のMoEルーティングは各レイヤの専門家を独立して選び、N^Lの可能な専門家パスを生成する。
モデルがそのような広大な経路空間上で有意義な構造を学ばないため、これは通常の訓練セットのサイズを超えるため、統計的に非効率性をもたらす。
そこで我々は,連続する層にまたがるルータパラメータを共有する‘pathmoe’を提案する。
0.9B と 16B のパラメータモデルによる実験では、独立ルーティングよりも複雑なタスクと下流タスクが一貫した改善を示し、補助的な負荷分散損失は不要である。
分析により、同じ経路に沿ったトークンが言語関数によって自然にクラスタリングされ、より集中した群が生成され、層間の一貫性が向上し、ルーティング摂動に対する堅牢性が向上することが明らかになった。
これらの結果は、専門家パスのレンズを通してMoEアーキテクチャを理解するための新しい視点を提供する。
関連論文リスト
- Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - MoE Pathfinder: Trajectory-driven Expert Pruning [19.790092938955336]
本稿では, 各層にまたがるアクティベート専門家の軌道に基づくプルーニング手法を提案する。
提案手法は,既存のほとんどの手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能を実現する。
論文 参考訳(メタデータ) (2025-12-20T17:05:08Z) - VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse [45.255254030425846]
We propose VersatileFFN, a novel feed-forward network that enables flexible use of parameters in width and depth dimensions。
困難を意識したゲーティングは、2つの経路を動的にバランスさせ、効率的な幅方向の経路を「簡単」トークンを操り、より深い反復的な洗練を「ハード」トークンに割り当てる。
多様なベンチマークとモデルスケールによる実験は、この方法の有効性を実証している。
論文 参考訳(メタデータ) (2025-12-16T16:08:23Z) - TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。