論文の概要: RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2604.26039v1
- Date: Tue, 28 Apr 2026 18:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.140064
- Title: RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts
- Title(参考訳): RaMP:Mixture-of-Expertsのためのランタイム対応メガカーネル多型
- Authors: Vyom Sharma, Debajyoti Datta,
- Abstract要約: 本稿ではルーティング対応のディスパッチフレームワークであるRaMPを紹介する。
RaMPは、静的ディスパッチで1.22倍のカーネルスピードアップと、Tritonで1.41倍、DeepGEMMで1.13倍、FlashInfer CUTLASSで1.30倍のエンドツーエンドスピードアップを提供する。
- 参考スコア(独自算出の注目度): 0.22625548856057365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimal kernel configuration for Mixture-of-Experts (MoE) inference depends on both batch size and the expert routing distribution, yet production systems dispatch from batch size alone, leaving 10-70% of kernel throughput unrealized. We present RaMP, a routing-aware dispatch framework. A performance-region analysis derives, from hardware constants alone, when each optimization helps, correctly predicting all 8 tested architectures, including 3 unseen. A four-parameter wave cost model selects the fastest configuration from the runtime expert histogram, achieving 0.93% mean regret versus exhaustive search, fitted from just 10-24 minutes of one-time profiling per model. Because the model depends only on CTA grid geometry, it is kernel-agnostic: applied to Alpha-MoE, it delivers 1.14x with no source modification. Paired with a co-designed CuTe DSL kernel exposing 134-268 polymorphic configurations, RaMP delivers 1.22x kernel speedup over static dispatch and 1.30x end-to-end speedup in vLLM serving over Triton, 1.41x over DeepGEMM, and 1.13x over FlashInfer CUTLASS.
- Abstract(参考訳): Mixture-of-Experts (MoE) 推論のための最適なカーネル構成は、バッチサイズと専門家のルーティング分布の両方に依存するが、プロダクションシステムはバッチサイズだけでディスパッチされ、カーネルスループットの10~70%は実現されない。
本稿ではルーティング対応のディスパッチフレームワークであるRaMPを紹介する。
パフォーマンス領域分析は、ハードウェア定数だけで、各最適化が助けとなると、3つの見えないアーキテクチャを含む8つのテストされたアーキテクチャを正確に予測する。
4パラメータのウェーブコストモデルは、実行時の専門家ヒストグラムから最も速い構成を選択し、1モデルにつき10~24分の1時間プロファイリングから0.93%の平均後悔と徹底的な探索を達成している。
モデルはCTAグリッド幾何学にのみ依存するため、カーネルに依存しない:Alpha-MoEに適用され、ソース変更なしで1.14xを提供する。
RaMPは134-268のポリモルフィック構成を露呈するCuTe DSLカーネルを共同設計し、静的ディスパッチの1.22倍のカーネルスピードアップと、Tritonの1.41倍、DeepGEMMの1.13倍、FlashInfer CUTLASSの1.30倍のエンドツーエンドスピードアップを提供する。
関連論文リスト
- COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels [11.316541559874864]
プロトタイプスケジューラは、固定幅ヒストグラムを用いて推定したアクティベーションエントロピーを、チャンクサイズ選択のランタイム信号として利用する。
COREYはConcept and Feasibilityのコントリビューションとして位置づけられている。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
論文 参考訳(メタデータ) (2026-04-12T12:07:48Z) - MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale [36.89558970450915]
リアルタイムAIエクスペリエンスは、リソース制約のあるハードウェアへの効率的なデプロイのために最適化されたデバイス上の大規模言語モデル(OD-LLM)を要求する。
本稿では,モバイル遅延制約下でのハードウェア・イン・ザ・ループアーキテクチャ・サーチを用いたモデル設計手法を提案する。
論文 参考訳(メタデータ) (2026-03-16T22:10:50Z) - AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。
GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。
これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文 参考訳(メタデータ) (2026-01-09T20:03:57Z) - AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis [13.239454996851771]
現代のAIモデルは高性能な計算カーネルを必要とする。
Akgカーネルエージェント(AI駆動のカーネルジェネレータ)は複数のドメイン固有言語をサポートするように設計されている。
システムのモジュール設計により、バックエンドDSLとハードウェアターゲットの迅速な統合が可能になる。
システムはPyTorch Eagerベースライン上で平均1.46ドルのスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-29T12:42:05Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - AI Accelerators for Large Language Model In-ference: Architecture Analysis and Scaling Strategies [10.520360508397237]
大規模言語モデル(LLM)は推論のための特別なハードウェアの新しい波を駆動している。
本稿では,商用AIアクセラレータのワークロード中心,クロスアーキテクチャ性能に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2025-05-13T20:21:20Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。