論文の概要: MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts
- arxiv url: http://arxiv.org/abs/2510.12357v1
- Date: Tue, 14 Oct 2025 10:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.276676
- Title: MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts
- Title(参考訳): MoBiLE: 大規模エキスパートの混在による消費者向けGPUの効率よい混合仕様推論
- Authors: Yushu Zhao, Yubin Qin, Yang Wang, Xiaolong Yang, Huiming Han, Shaojun Wei, Yang Hu, Shouyi Yin,
- Abstract要約: MoBiLEは、プラグイン・アンド・プレイのオフロードベースのMoE推論フレームワークで、大手専門家のテキストミキサーを備えている。
MoBiLEは、コンシューマGPUシステムのベースラインと比較して1.60倍から1.72倍のスピードアップを実現し、精度の劣化は無視できる。
- 参考スコア(独自算出の注目度): 17.518573710849513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models have recently demonstrated exceptional performance across a diverse range of applications. The principle of sparse activation in MoE models facilitates an offloading strategy, wherein active experts are maintained in GPU HBM, while inactive experts are stored in CPU DRAM. The efficacy of this approach, however, is fundamentally constrained by the limited bandwidth of the CPU-GPU interconnect. To mitigate this bottleneck, existing approaches have employed prefetching to accelerate MoE inference. These methods attempt to predict and prefetch the required experts using specially trained modules. Nevertheless, such techniques are often encumbered by significant training overhead and have shown diminished effectiveness on recent MoE models with fine-grained expert segmentation. In this paper, we propose MoBiLE, a plug-and-play offloading-based MoE inference framework with \textit{mixture of big-little experts}. It reduces the number of experts for unimportant tokens to half for acceleration while maintaining full experts for important tokens to guarantee model quality. Further, a dedicated fallback and prefetching mechanism is designed for switching between little and big experts to improve memory efficiency. We evaluate MoBiLE on four typical modern MoE architectures and challenging generative tasks. Our results show that MoBiLE achieves a speedup of 1.60x to 1.72x compared to the baseline on a consumer GPU system, with negligible degradation in accuracy.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、最近、様々なアプリケーションにまたがる例外的なパフォーマンスを実証した。
MoEモデルのスパースアクティベーションの原則はオフロード戦略を促進し、アクティブエキスパートはGPU HBMに、非アクティブエキスパートはCPU DRAMに格納される。
しかし、このアプローチの有効性は、CPU-GPU相互接続の帯域幅の制限によって根本的に制限されている。
このボトルネックを軽減するために、既存のアプローチでは、MoE推論を加速するためにプレフェッチを採用している。
これらの手法は、特別に訓練されたモジュールを使用して、必要な専門家を予測し、予測しようとする。
それにもかかわらず、そのような技術は訓練のオーバーヘッドがかなり大きいため、最近のMoEモデルでは、細粒度の専門家セグメンテーションによる効果が低下している。
本稿では,MoBiLEを提案する。このMoBiLEは,大規模専門家のtextit{mixture of big-little experts} を組み込んだ,プラグアンドプレイオフロードベースのMoE推論フレームワークである。
これにより、重要でないトークンのエキスパートを半分に減らし、モデルの品質を保証する重要なトークンのエキスパートをフルに維持する。
さらに、小さな専門家と大きな専門家を切り替えてメモリ効率を向上させるために、専用のフォールバックとプリフェッチ機構が設計されている。
MoBiLEを4つのモダンなMoEアーキテクチャで評価し,その有効性を検証した。
以上の結果から,MoBiLEはGPUシステムのベースラインに比べて1.60倍から1.72倍の高速化を実現し,精度の劣化は無視できることがわかった。
関連論文リスト
- PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference [17.441141633991197]
本稿では,2つの重要なイノベーションを通じて高精度かつ効率的な推論を実現する,トレーニング不要なMoE圧縮手法であるPuzzleMoEを紹介する。
第一に、PuzzleMoEは要素単位の重量冗長性と特殊化を識別してスパースエキスパートマージを行う。
第二に、バイナリマスクとサインの保存のオーバーヘッドを避けるために、PuzzleMoEは未使用の指数ビットを再利用するビットパック符号化方式を導入した。
論文 参考訳(メタデータ) (2025-11-06T20:53:02Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference [2.8653469160349077]
我々は、事前訓練されたMoEモデルにおいて、各層当たりのアクティブな専門家の最適な数を決定する、データフリーな最適化手法であるLExIを紹介する。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIは推論効率の点で従来のMoEプルーニング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-02T19:01:46Z) - Enabling MoE on the Edge via Importance-Driven Expert Scheduling [21.860330824352527]
MoEは、クエリ毎に専門家のサブセットだけをアクティベートすることで、大規模言語モデルをスケールするための重要なテクニックである。
専門家の重要さを活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、低キャッシュのアクティベートした専門家に置き換えます。
この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-26T12:32:09Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Taming Latency-Memory Trade-Off in MoE-Based LLM Serving via Fine-Grained Expert Offloading [7.9192039061119255]
FineMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
FineMoEは推論遅延を47%削減し、最先端ソリューションよりもエキスパートのヒット率を39%向上させる。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。