論文の概要: Ada-MK: Adaptive MegaKernel Optimization via Automated DAG-based Search for LLM Inference
- arxiv url: http://arxiv.org/abs/2605.11581v1
- Date: Tue, 12 May 2026 06:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.617979
- Title: Ada-MK: Adaptive MegaKernel Optimization via Automated DAG-based Search for LLM Inference
- Title(参考訳): Ada-MK: LLM推論のためのDAGに基づく自動探索による適応メガカーネル最適化
- Authors: Wenxin Dong, Mingqing Hu, Guanghui Yu, Qiang Fu, Peng Xu, Hui Xu, Yue Xing, Xuewu Jiao, Shuanglong Li, Lin Liu,
- Abstract要約: 大型言語モデル(LLM)は、商用オンライン広告システムにおいてリアルタイムな推論を提供する。
MegaKernelは、複数のオペレータを単一の永続カーネルに融合することで、起動オーバーヘッドと運用間ラウンドトリップを排除している。
Ada-MK: K次元分割と組み合わせた3次元共有メモリ制約モデル。
NVIDIA L20では、Ada-MKはバニラRT-LLMで最大23.6%、vLLMで50.2%改善している。
- 参考スコア(独自算出の注目度): 17.23666143382396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When large language models (LLMs) serve real-time inference in commercial online advertising systems, end-to-end latency must be strictly bounded to the millisecond range. Yet every token generated during the decode phase triggers thousands of kernel launches, and kernel launch overhead alone can account for 14.6% of end-to-end inference time. MegaKernel eliminates launch overhead and inter-operator HBM round-trips by fusing multiple operators into a single persistent kernel. However, existing MegaKernel implementations face a fundamental tension between portability and efficiency on resource-constrained GPUs such as NVIDIA Ada: hand-tuned solutions are tightly coupled to specific architectures and lack portability, while auto-compiled approaches introduce runtime dynamic scheduling whose branch penalties are unacceptable in latency-critical settings. We observe that under a fixed deployment configuration, the optimal execution path of a MegaKernel is uniquely determined, and runtime dynamic decision-making can be entirely hoisted to compile time. Building on this insight, we propose Ada-MK: (1) a three-dimensional shared-memory constraint model combined with K-dimension splitting that reduces peak shared memory usage by 50%; (2) MLIR-based fine-grained DAG offline search that solidifies the optimal execution path, completely eliminating runtime branching; and (3) a heterogeneous hybrid inference engine that embeds MegaKernel as a plugin into TensorRT-LLM, combining high-throughput Prefill with low-latency Decode. On an NVIDIA L20, Ada-MK improves single-batch throughput by up to 23.6% over vanilla TensorRT-LLM and 50.2% over vLLM, achieving positive gains across all tested scenarios--the first industrial deployment of MegaKernel in a commercial online advertising system.
- Abstract(参考訳): 大規模言語モデル(LLM)が商用オンライン広告システムでリアルタイムな推論を行う場合、エンドツーエンドのレイテンシはミリ秒の範囲に厳格に拘束されなければならない。
しかし、デコードフェーズ中に生成された全てのトークンは何千ものカーネルの起動をトリガーし、カーネルの起動オーバーヘッドだけではエンドツーエンドの推論時間の14.6%を占めることができる。
MegaKernelは、複数の演算子を単一の永続カーネルに融合することで、起動オーバーヘッドと運用間HBMラウンドトリップを排除している。
しかし、既存のMegaKernelの実装は、NVIDIA Adaのようなリソース制約付きGPUのポータビリティと効率の基本的な緊張に直面している。
固定配置構成では,MegaKernelの最適実行パスが一意に決定され,実行時の動的決定は完全にコンパイル時間に保たれる。
Ada-MK は,(1) 最大共有メモリ使用量を50%削減するK次元分割と組み合わせた3次元共有メモリ制約モデル,(2) MLIR ベースの細粒度 DAG オフラインサーチによる最適な実行経路の固化,実行時分岐の完全排除,(3) MegaKernel を TensorRT-LLM にプラグインとして組み込み,高スループット Prefill と低遅延デコードを組み合わせたヘテロジニアスハイブリッド推論エンジンを提案する。
NVIDIA L20では、Ada-MKはバニラTensorRT-LLMを最大23.6%、vLLMを50.2%、単発バッチのスループットを最大23.6%改善し、すべてのテストシナリオで肯定的な利益を得た。
関連論文リスト
- MATCHA: Efficient Deployment of Deep Neural Networks on Multi-Accelerator Heterogeneous Edge SoCs [45.487954219664026]
MATCHAは並列な異種加速器のための高度に並列なスケジュールを生成する。
Tinyerfベンチマークでは、MATCHAはアクセラレータ使用率を改善し、レイテンシを最大35%削減する。
論文 参考訳(メタデータ) (2026-04-10T09:04:34Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Scaling State-Space Models on Multiple GPUs with Tensor Parallelism [0.24148976266903474]
選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
論文 参考訳(メタデータ) (2026-02-24T17:47:54Z) - Mirage Persistent Kernel: A Compiler and Runtime for Mega-Kernelizing Tensor Programs [17.461191811780722]
Mirage Persistent Kernel (MPK)は、マルチGPUモデル推論を自動的に1つの高性能メガカーネルに変換する最初のコンパイラおよびランタイムシステムである。
MPKはSMレベルのグラフ表現を導入し、個々のストリーミングマルチプロセッサの粒度でデータの依存関係をキャプチャする。
MPKは、エンド・ツー・エンドのレイテンシを最大1.7倍に減らし、既存のカーネル・パー・オペレーショナル・サービスシステムより大幅に優れている。
論文 参考訳(メタデータ) (2025-12-22T14:18:20Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Hybrid Genetic Algorithm for Optimal User Order Routing: Multi-Objective Solver Optimization in CoW Protocol Batch Auctions [0.0]
CoW Protocolのバッチオークションは、ユーザの意図を集約し、ユーザの余剰量を最大化する最適な実行パスを見つけるために頼ります。
本稿では,実運用段階の多目的NSGA-IIエンジンと適応型インスタンスプロファイリングと決定論的ベースラインを組み合わせた実時間問題解決のためのハイブリッド遺伝的アルゴリズムを提案する。
14層式(それぞれ30種)のベンチマークでは、このハイブリッドアプローチは、小口径のオーダーで0.40-9.82 ETHという絶対的なユーザ余剰ゲインが得られる。
論文 参考訳(メタデータ) (2025-10-24T17:05:07Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。