論文の概要: SpecMD: A Comprehensive Study On Speculative Expert Prefetching
- arxiv url: http://arxiv.org/abs/2602.03921v1
- Date: Tue, 03 Feb 2026 18:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.228166
- Title: SpecMD: A Comprehensive Study On Speculative Expert Prefetching
- Title(参考訳): SpecMD: 投機的エキスパートのプレフェッチに関する総合的研究
- Authors: Duc Hoang, Ajay Jaiswal, Mohammad Samragh, Minsik Cho,
- Abstract要約: Mixture-of-Experts (MoE)モデルはスパース専門家のアクティベーションを可能にする。
我々は,MoEの予測可能な専門家アクセスパターンを利用して,衝突ミスを最大8,5倍まで低減する新しい消去ポリシーである textbfLeast-Stale を提案する。
- 参考スコア(独自算出の注目度): 15.35374861966937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models enable sparse expert activation, meaning that only a subset of the model's parameters is used during each inference. However, to translate this sparsity into practical performance, an expert caching mechanism is required. Previous works have proposed hardware-centric caching policies, but how these various caching policies interact with each other and different hardware specification remains poorly understood. To address this gap, we develop \textbf{SpecMD}, a standardized framework for benchmarking ad-hoc cache policies on various hardware configurations. Using SpecMD, we perform an exhaustive benchmarking of several MoE caching strategies, reproducing and extending prior approaches in controlled settings with realistic constraints. Our experiments reveal that MoE expert access is not consistent with temporal locality assumptions (e.g LRU, LFU). Motivated by this observation, we propose \textbf{Least-Stale}, a novel eviction policy that exploits MoE's predictable expert access patterns to reduce collision misses by up to $85\times$ over LRU. With such gains, we achieve over $88\%$ hit rates with up to $34.7\%$ Time-to-first-token (TTFT) reduction on OLMoE at only $5\%$ or $0.6GB$ of VRAM cache capacity.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルはスパース専門家のアクティベーションを可能にする。
しかし、このスパーシリティを実用的なパフォーマンスに変換するには、エキスパートキャッシング機構が必要である。
これまでの研究では、ハードウェア中心のキャッシュポリシーが提案されていたが、これらの様々なキャッシュポリシーが相互にどのように相互作用し、異なるハードウェア仕様がよく理解されていない。
このギャップに対処するため,各種ハードウェア構成のアドホックキャッシュポリシをベンチマークする標準フレームワークである \textbf{SpecMD} を開発した。
SpecMDを用いて、いくつかのMoEキャッシュ戦略の徹底的なベンチマークを行い、現実的な制約のある制御された設定において、事前のアプローチを再現および拡張する。
実験の結果,MoEエキスパートアクセスは時間的局所性仮定(LRU,LFUなど)と一致しないことがわかった。
そこで本研究では,MoEの予測可能な専門家アクセスパターンを利用して,衝突ミスを最大8,5\times$のLRUで低減する新しい消去ポリシーである「textbf{Least-Stale}」を提案する。
このような利得により、OLMoEの最大3,4.7 %のタイム・ツー・ファースト・トケン(TTFT)をわずか5 %または0.6 GBのVRAMキャッシュ容量で削減する8,8 %以上のヒット率を達成する。
関連論文リスト
- MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。
MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。
Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-18T03:40:19Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs [11.615399679746675]
ドメイン固有のユースケースにおけるローカルデプロイメントのための大規模言語モデル(LLM)の専門化は、強力なパフォーマンスを実現する上で必要である。
我々は,現代のLLMで経験的に観察し,検証した層ワイド特殊化現象に基づいてTrimLLMを開発した。
特定のドメインにおけるLLMの能力を維持し、ハードウェアやディープラーニングフレームワークに関係なく、推論スピードアップが達成できることを示す。
論文 参考訳(メタデータ) (2024-12-15T16:47:16Z) - Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。
モバイルデバイス上での2$times$のスピードアップを実演する。
論文 参考訳(メタデータ) (2024-11-27T18:59:48Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。