論文の概要: ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving
- arxiv url: http://arxiv.org/abs/2604.14626v2
- Date: Thu, 23 Apr 2026 01:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:05.980011
- Title: ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving
- Title(参考訳): ELMoE-3D:MoEの固有弾性を生かしたハイブリッドボンディング型自己投機的復号法
- Authors: Yuseon Choi, Jingu Lee, Jungjun Oh, Sunjoo Whang, Byeongcheol Kim, Minsung Kim, Hoi-Jun Yoo, Sangjin Kim,
- Abstract要約: 本稿では,キャッシュベースのアクセラレーションと投機的復号化を統一するハイブリッドボンディングフレームワークELMoE-3Dを提案する。
私たちの3Dスタックハードウェアでは、ELMoE-3DはxPU 1-16で提供される単純なMoEよりも平均6.6倍のスピードアップと4.4倍のエネルギー効率向上を実現しています。
- 参考スコア(独自算出の注目度): 3.8457393423256363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models have become the dominant architecture for large-scale language models, yet on-premises serving remains fundamentally memory-bound as batching turns sparse per-token compute into dense memory activation. Memory-centric architectures (PIM, NMP) improve bandwidth but leave compute underutilized under MoE's low arithmetic intensity at high batch sizes. Speculative decoding (SD) trades idle compute for fewer target invocations, yet verification must load experts even for rejected tokens, severely limiting its benefit in MoE especially at low batch sizes. We propose ELMoE-3D, a hybrid-bonding (HB)-based HW-SW co-designed framework that unifies cache-based acceleration and speculative decoding to offer overall speedup across batch sizes. We identify two intrinsic elasticity axes of MoE-expert and bit-and jointly scale them to construct Elastic Self-Speculative Decoding (Elastic-SD), which serves as both an expert cache and a strongly aligned self-draft model accelerated by high HB bandwidth. Our LSB-augmented bit-sliced architecture exploits inherent redundancy in bit-slice representations to natively support bit-nested execution. On our 3D-stacked hardware, ELMoE-3D achieves an average $6.6\times$ speedup and $4.4\times$ energy efficiency gain over naive MoE serving on xPU across batch sizes 1-16, and delivers $2.2\times$ speedup and $1.4\times$ energy efficiency gain over the best-performing prior accelerator baseline.
- Abstract(参考訳): Mixture-of-Experts (MoE) モデルは大規模言語モデルにおいて支配的なアーキテクチャとなっているが、バッチ処理がメモリアクティベーションの希薄化を招き、オンプレミスでの利用は基本的にメモリバウンドのままである。
メモリ中心アーキテクチャ(PIM、NMP)は帯域幅を改善するが、高いバッチサイズでMoEの低演算強度で計算を未使用のまま残す。
投機的復号(SD)は、アイドル計算を少ないターゲット呼び出しで交換するが、検証は、拒否されたトークンであっても専門家をロードし、特にバッチサイズが低い場合には、MoEのメリットを著しく制限しなければならない。
本稿では,ハイブリッドボンディング(HB)ベースのHW-SW協調設計フレームワークであるELMoE-3Dを提案する。
我々は,MoE-Expert とbit-scale の2つの固有弾性軸を同定し,高い HB 帯域幅で加速されるエキスパートキャッシュと強整列自己ドラフトモデルの両方として機能する Elastic Self-Speculative Decoding (Elastic-SD) を構築する。
我々のLSB拡張ビットスライスアーキテクチャは、ビットスライス表現の固有の冗長性を生かし、ビットスライス実行をネイティブにサポートする。
当社の3Dスタックハードウェアでは、ELMoE-3Dは平均6.6\times$スピードアップと4.4\times$エネルギー効率向上を、xPUでバッチサイズ1-16で提供し、2.2\times$スピードアップと1.4\times$エネルギー効率向上を達成している。
関連論文リスト
- MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization [11.19613037505662]
MoBiEは、Mixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)用に設計されたバイナライズフレームワークである。
MoBiEは、複数のMoEベースのLLMとベンチマークで最先端のバイナリメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-08T08:12:26Z) - ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert
(MoE) Inference [7.743308058511418]
言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。
本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T19:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。