論文の概要: Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel
- arxiv url: http://arxiv.org/abs/2604.13327v2
- Date: Tue, 21 Apr 2026 00:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.611788
- Title: Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel
- Title(参考訳): Event Tensor: 動的メガカーネルをコンパイルするための統一抽象化
- Authors: Hongyi Jin, Bohan Hou, Guanjie Wang, Ruihang Lai, Jinqi Chen, Zihao Ye, Yaxing Cai, Yixin Dong, Xinhao Cheng, Zhihao Zhang, Yilong Zhao, Yingyi Huang, Lijie Yang, Jinchen Jiang, Gabriele Oliaro, Jianan Ji, Xupeng Miao, Vinod Grover, Todd C. Mowry, Zhihao Jia, Tianqi Chen,
- Abstract要約: Event Compiler (ETC) は静的および動的スケジューリングを適用して高性能な永続カーネルを生成する。
ETCは最先端のサービスレイテンシを実現し、ウォームアップオーバーヘッドを大幅に削減する。
- 参考スコア(独自算出の注目度): 17.931727429220874
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern GPU workloads, especially large language model (LLM) inference, suffer from kernel launch overheads and coarse synchronization that limit inter-kernel parallelism. Recent megakernel techniques fuse multiple operators into a single persistent kernel to eliminate launch gaps and expose inter-kernel parallelism, but struggle to handle dynamic shapes and data-dependent computation in real workloads. We present Event Tensor, a unified compiler abstraction for dynamic megakernels. Event Tensor encodes dependencies between tiled tasks, and enables first-class support for both shape and data-dependent dynamism. Built atop this abstraction, our Event Tensor Compiler (ETC) applies static and dynamic scheduling transformations to generate high-performance persistent kernels. Evaluations show that ETC achieves state-of-the-art LLM serving latency while significantly reducing system warmup overhead.
- Abstract(参考訳): 現代のGPUワークロード、特に大規模言語モデル(LLM)推論は、カーネルの起動オーバーヘッドとカーネル間の並列性を制限する粗い同期に悩まされている。
最近のメガカーネル技術は、複数のオペレータを単一の永続カーネルに融合して、ローンチギャップを排除し、カーネル間並列性を公開するが、実際のワークロードで動的形状とデータ依存計算を扱うのに苦労している。
動的メガカーネルのための統合コンパイラであるEvent Tensorを提案する。
Event Tensorは、タイル付きタスク間の依存関係をエンコードし、形状とデータ依存ダイナミズムの両方をファーストクラスでサポートする。
この抽象化の上に構築されたEvent Tensor Compiler(ETC)は、静的および動的スケジューリング変換を適用して、高性能な永続カーネルを生成する。
評価の結果,ETCはシステムのウォームアップオーバーヘッドを著しく低減しつつ,最先端のLCMサービスレイテンシを実現することがわかった。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler [0.0]
エッジデバイスのAIカーネルコンパイルは、並列性を悪用し、メモリレイテンシを隠蔽するコンパイラの能力に依存する。
本稿では,MLIRベースのコンパイルパイプラインにおける3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
論文 参考訳(メタデータ) (2026-02-22T19:14:23Z) - Mirage Persistent Kernel: A Compiler and Runtime for Mega-Kernelizing Tensor Programs [17.461191811780722]
Mirage Persistent Kernel (MPK)は、マルチGPUモデル推論を自動的に1つの高性能メガカーネルに変換する最初のコンパイラおよびランタイムシステムである。
MPKはSMレベルのグラフ表現を導入し、個々のストリーミングマルチプロセッサの粒度でデータの依存関係をキャプチャする。
MPKは、エンド・ツー・エンドのレイテンシを最大1.7倍に減らし、既存のカーネル・パー・オペレーショナル・サービスシステムより大幅に優れている。
論文 参考訳(メタデータ) (2025-12-22T14:18:20Z) - Streaming Tensor Program: A streaming abstraction for dynamic parallelism [3.2194902146668127]
Streaming Program(STeP)は,動的テンソルワークロードを空間データフローアクセラレータ上で効率的に実行可能にする,新たなストリーミング抽象化である。
STePはフレキシブルなルーティング演算子、明示的なメモリ階層、動的データレートとテンソル次元を公開するシンボリックシェイプセマンティクスを導入している。
これらの機能は、動的タイリング、動的並列化、そしてデータフロー効率を保ちながら動的な振る舞いに適応する構成時多重化という新しい最適化を解放する。
論文 参考訳(メタデータ) (2025-11-11T02:49:10Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。
TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。
我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-04-24T14:08:49Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。