論文の概要: LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference
- arxiv url: http://arxiv.org/abs/2509.02753v1
- Date: Tue, 02 Sep 2025 19:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.312118
- Title: LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference
- Title(参考訳): LExI: 効率的なMoEモデル推論のための層適応型アクティブエキスパート
- Authors: Krishna Teja Chitty-Venkata, Sandeep Madireddy, Murali Emani, Venkatram Vishwanath,
- Abstract要約: 我々は、事前訓練されたMoEモデルにおいて、各層当たりのアクティブな専門家の最適な数を決定する、データフリーな最適化手法であるLExIを紹介する。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIは推論効率の点で従来のMoEプルーニング手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 2.8653469160349077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models scale efficiently by activating only a subset of experts per token, offering a computationally sparse alternative to dense architectures. While prior post-training optimizations, such as inter- and intra-expert pruning, reduce memory usage they provide limited gains in inference-time compute efficiency. Moreover, existing MoE architectures typically activate a fixed number of experts uniformly across all layers, resulting in redundant computation and suboptimal performance. In this work, we first demonstrate that MoE pruning strategies improve only the memory footprint but do not significantly improve inference performance on GPU using optimized frameworks such as vLLM. To address this, we introduce LExI, a data-free optimization technique that determines the optimal number of active experts per layer in a pretrained MoE model. LExI leverages only the model weights to estimate the relative importance of each layer and adaptively assigns the number of active experts accordingly per layer. Experiments on state-of-the-art language and vision MoE benchmarks demonstrate that LExI significantly outperforms traditional MoE pruning approaches in terms of inference efficiency with negligible accuracy loss. For example, using LExI, Qwen1.5-MoE achieves the same throughput on Nvidia H100 GPU with 10% better accuracy than traditional expert pruning.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルはトークンごとに専門家のサブセットだけを活性化することで効率よくスケールする。
事前のトレーニング後の最適化、例えばインターサートプルーニングやイントラサートプルーニングは、メモリ使用量を削減し、推論時の計算効率が制限される。
さらに、既存のMoEアーキテクチャは、通常、すべての層にわたって一定の数の専門家をアクティベートし、冗長な計算と準最適性能をもたらす。
本稿では、まず、メモリフットプリントだけを改善するMoEプルーニング戦略を実証するが、vLLMのような最適化されたフレームワークを用いてGPU上での推論性能を著しく改善しない。
そこで本研究では,事前学習したMoEモデルにおいて,各層当たりのアクティブな専門家数を最適に決定するデータフリー最適化手法であるLExIを紹介する。
LExIはモデルウェイトのみを活用して各レイヤの相対的な重要性を推定し、各レイヤごとにアクティブな専門家の数を適応的に割り当てる。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIが従来のMoEプルーニング手法よりも、無視できる精度の損失で推論効率を著しく上回っていることが示されている。
例えば、LExIを使用する場合、Qwen1.5-MoEはNvidia H100 GPUで従来のエキスパートプルーニングよりも10%精度で同じスループットを達成する。
関連論文リスト
- MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices [0.0]
自己回帰復号中に専門家のアクティベーションを予測するための学習ベースエキスパートアクティベーション予測器であるMoE-Beyondを紹介する。
我々の予測器は、WebGLM-QAデータセットからの見えないプロンプトを効果的に一般化し、97.5%の精度と86.6%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-08-23T20:28:32Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection [0.3308833414816073]
MoEは選択的な専門家アクティベーションのために設計されており、すべての専門家のアクティベーションを強制し、デコードフェーズ中にMoEの効率を無効にする。
動的でバッチ対応のエキスパート選択による効率的なMoE推論を可能にするシステムであるLynxを提案する。
評価の結果、Lynxはベースラインモデルから無視できる精度損失を維持しつつ、推論遅延の最大1.55倍の低減を実現していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T19:18:08Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。