論文の概要: BuddyMoE: Exploiting Expert Redundancy to Accelerate Memory-Constrained Mixture-of-Experts Inference
- arxiv url: http://arxiv.org/abs/2511.10054v1
- Date: Fri, 14 Nov 2025 01:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.667351
- Title: BuddyMoE: Exploiting Expert Redundancy to Accelerate Memory-Constrained Mixture-of-Experts Inference
- Title(参考訳): BuddyMoE: メモリ制約の混合推論を高速化するために専門家の冗長性を爆発させる
- Authors: Yun Wang, Lingyun Yang, Senhao Yu, Yixiao Wang, Ruixing Li, Zhixiang Wei, James Yen, Zhengwei Qi,
- Abstract要約: 現代のMoEモデルのサイズが大きくなると、完全なパラメータセットがGPUメモリ容量を超える。
Prefetchingsは、どの専門家が必要なのかを予測することによって、このレイテンシを隠すことを目的としている。
重要な課題は、プレフェッチ失敗時に高い推論速度とモデルの精度を維持することである。
- 参考スコア(独自算出の注目度): 11.5035097836611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures scale language models by activating only a subset of specialized expert networks for each input token, thereby reducing the number of floating-point operations. However, the growing size of modern MoE models causes their full parameter sets to exceed GPU memory capacity; for example, Mixtral-8x7B has 45 billion parameters and requires 87 GB of memory even though only 14 billion parameters are used per token. Existing systems alleviate this limitation by offloading inactive experts to CPU memory, but transferring experts across the PCIe interconnect incurs significant latency (about 10 ms). Prefetching heuristics aim to hide this latency by predicting which experts are needed, but prefetch failures introduce significant stalls and amplify inference latency. In the event of a prefetch failure, prior work offers two primary solutions: either fetch the expert on demand, which incurs a long stall due to the PCIe bottleneck, or drop the expert from the computation, which significantly degrades model accuracy. The critical challenge, therefore, is to maintain both high inference speed and model accuracy when prefetching fails.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、入力トークンごとに専門的な専門家ネットワークのサブセットのみを活性化することにより、言語モデルをスケールし、浮動小数点演算数を減少させる。
例えば、Mixtral-8x7Bは45億のパラメータを持ち、トークンごとにわずか14億のパラメータしか使われていないにもかかわらず、87GBのメモリを必要とする。
既存のシステムは、アクティブでない専門家をCPUメモリにオフロードすることで、この制限を緩和するが、PCIe間で専門家を転送することは、重大なレイテンシ(約10ミリ秒)を引き起こす。
事前ヒューリスティックは、どの専門家が必要なのかを予測することによって、このレイテンシを隠すことを目的としている。
プリフェッチ障害が発生した場合、事前作業は2つの主要なソリューションを提供する: オンデマンドのエキスパートを取り込むか、PCIeのボトルネックのために長い停止を生じるか、あるいは専門家を計算から落として、モデルの精度を著しく低下させる。
したがって、重要な課題は、プレフェッチ失敗時に高い推論速度とモデルの精度を維持することである。
関連論文リスト
- ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference [8.296993547783808]
ExpertFlowは、適応型エキスパートプリフェッチとキャッシュ対応ルーティングを組み合わせた、MoE推論のためのランタイムシステムである。
我々の評価では、ExpertFlowはモデルストール時間をベースラインの0.1%未満に短縮する。
論文 参考訳(メタデータ) (2025-10-30T17:29:27Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Enabling MoE on the Edge via Importance-Driven Expert Scheduling [21.860330824352527]
MoEは、クエリ毎に専門家のサブセットだけをアクティベートすることで、大規模言語モデルをスケールするための重要なテクニックである。
専門家の重要さを活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、低キャッシュのアクティベートした専門家に置き換えます。
この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-26T12:32:09Z) - FloE: On-the-Fly MoE Inference on Memory-constrained GPU [22.2581000412208]
FloEは、わずかに活性化された専門家の中に、未解決の相当な冗長性が存在するという洞察に基づいて構築されている。
FloEはMixtral-8x7Bのエキスパートあたりのパラメータの9.3倍の圧縮を実現している。
メモリフットプリントを最大8.5倍に削減し、たった11GBのVRAMでGPUにデプロイできる。
論文 参考訳(メタデータ) (2025-05-09T10:53:47Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。