論文の概要: MoE Pathfinder: Trajectory-driven Expert Pruning
- arxiv url: http://arxiv.org/abs/2512.18425v1
- Date: Sat, 20 Dec 2025 17:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.32743
- Title: MoE Pathfinder: Trajectory-driven Expert Pruning
- Title(参考訳): MoE Pathfinder: 軌道駆動型エキスパートプルーニング
- Authors: Xican Yang, Yuanhe Tian, Yan Song,
- Abstract要約: 本稿では, 各層にまたがるアクティベート専門家の軌道に基づくプルーニング手法を提案する。
提案手法は,既存のほとんどの手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能を実現する。
- 参考スコア(独自算出の注目度): 19.790092938955336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-experts (MoE) architectures used in large language models (LLMs) achieve state-of-the-art performance across diverse tasks yet face practical challenges such as deployment complexity and low activation efficiency. Expert pruning has thus emerged as a promising solution to reduce computational overhead and simplify the deployment of MoE models. However, existing expert pruning approaches conventionally rely on local importance metrics and often apply uniform layer-wise pruning, leveraging only partial evaluation signals and overlooking the heterogeneous contributions of experts across layers. To address these limitations, we propose an expert pruning approach based on the trajectory of activated experts across layers, which treats MoE as a weighted computation graph and casts expert selection as a global optimal path planning problem. Within this framework, we integrate complementary importance signals from reconstruction error, routing probabilities, and activation strength at the trajectory level, which naturally yields non-uniform expert retention across layers. Experiments show that our approach achieves superior pruning performance on nearly all tasks compared with most existing approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)で使用されるMixture-of-experts (MoE)アーキテクチャは、さまざまなタスクにわたる最先端のパフォーマンスを実現するが、デプロイメントの複雑さやアクティベーション効率の低下といった現実的な課題に直面している。
これにより、計算オーバーヘッドを減らし、MoEモデルのデプロイを簡単にするための有望なソリューションとして、エキスパートプルーニングが登場した。
しかし、既存の専門家のプルーニングアプローチは、従来は局所的な重要度基準に依存しており、しばしば均一なレイヤーワイドプルーニングを適用し、部分的な評価信号のみを活用し、各レイヤにまたがる専門家の不均一な貢献を見越す。
これらの制約に対処するため、我々は、MoEを重み付き計算グラフとして扱い、専門家選択をグローバルな最適経路計画問題として位置づける、層間のアクティベートされた専門家の軌道に基づくエキスパートプルーニング手法を提案する。
本枠組みでは, 復元誤差, ルーティング確率, 軌道レベルでのアクティベーション強度の相補的な重要信号を統合する。
実験により,本手法は既存手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能が得られることが示された。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - GMoPE:A Prompt-Expert Mixture Framework for Graph Foundation Models [30.023472202549076]
グラフニューラルネットワーク(GNN)はタスク固有のベンチマークで素晴らしいパフォーマンスを示しているが、さまざまなドメインやタスクをまたいで一般化する能力は限定的だ。
GMoPEは,Mixture-of-Experts(MoE)アーキテクチャをグラフの即時学習とシームレスに統合するフレームワークである。
GMoPEは、最先端のベースラインを一貫して上回り、完全なパラメータの微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-05T07:28:51Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。