論文の概要: Mirage Persistent Kernel: A Compiler and Runtime for Mega-Kernelizing Tensor Programs
- arxiv url: http://arxiv.org/abs/2512.22219v1
- Date: Mon, 22 Dec 2025 14:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.901039
- Title: Mirage Persistent Kernel: A Compiler and Runtime for Mega-Kernelizing Tensor Programs
- Title(参考訳): Mirage Persistent Kernel: Mega-Kernelizing Tensorプログラム用のコンパイラとランタイム
- Authors: Xinhao Cheng, Zhihao Zhang, Yu Zhou, Jianan Ji, Jinchen Jiang, Zepeng Zhao, Ziruo Xiao, Zihao Ye, Yingyi Huang, Ruihang Lai, Hongyi Jin, Bohan Hou, Mengdi Wu, Yixin Dong, Anthony Yip, Zihao Ye, Songting Wang, Wenqin Yang, Xupeng Miao, Tianqi Chen, Zhihao Jia,
- Abstract要約: Mirage Persistent Kernel (MPK)は、マルチGPUモデル推論を自動的に1つの高性能メガカーネルに変換する最初のコンパイラおよびランタイムシステムである。
MPKはSMレベルのグラフ表現を導入し、個々のストリーミングマルチプロセッサの粒度でデータの依存関係をキャプチャする。
MPKは、エンド・ツー・エンドのレイテンシを最大1.7倍に減らし、既存のカーネル・パー・オペレーショナル・サービスシステムより大幅に優れている。
- 参考スコア(独自算出の注目度): 17.461191811780722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mirage Persistent Kernel (MPK), the first compiler and runtime system that automatically transforms multi-GPU model inference into a single high-performance megakernel. MPK introduces an SM-level graph representation that captures data dependencies at the granularity of individual streaming multiprocessors (SMs), enabling cross-operator software pipelining, fine-grained kernel overlap, and other previously infeasible GPU optimizations. The MPK compiler lowers tensor programs into highly optimized SM-level task graphs and generates optimized CUDA implementations for all tasks, while the MPK in-kernel parallel runtime executes these tasks within a single mega-kernel using decentralized scheduling across SMs. Together, these components provide end-to-end kernel fusion with minimal developer effort, while preserving the flexibility of existing programming models. Our evaluation shows that MPK significantly outperforms existing kernel-per-operator LLM serving systems by reducing end-to-end inference latency by up to 1.7x, pushing LLM inference performance close to hardware limits. MPK is publicly available at https://github.com/mirage-project/mirage.
- Abstract(参考訳): 本稿では,Mirage Persistent Kernel(MPK)を紹介し,マルチGPUモデル推論を自動的に1つの高性能メガカーネルに変換する最初のコンパイラおよびランタイムシステムについて紹介する。
MPKはSMレベルのグラフ表現を導入し、個々のストリーミングマルチプロセッサ(SM)の粒度でデータ依存関係をキャプチャする。
MPKコンパイラはテンソルプログラムを高度に最適化されたSMレベルのタスクグラフに落とし、全てのタスクに対して最適化されたCUDA実装を生成する。
これらのコンポーネントは、既存のプログラミングモデルの柔軟性を維持しながら、開発者の最小限の労力でエンドツーエンドのカーネル融合を提供する。
評価の結果,MPKは従来のカーネル・パー・オペレーショナル LLM サービスシステムよりも高い性能を示し,エンドツーエンドの推論遅延を最大 1.7 倍に削減し,LLM の推論性能をハードウェアの限界に近づけた。
MPKはhttps://github.com/mirage-project/mirage.comで公開されている。
関連論文リスト
- A Tensor Compiler for Processing-In-Memory Architectures [8.353569627672622]
Processing-In-Memory(PIM)デバイスは、Large Language Models(LLM)を含む機械学習(ML)モデルにおいて、メモリ集約カーネルを加速することができる。
現在のコンパイルアプローチでは、複数のPIMバックエンドにまたがる多様なMLカーネルの体系的な最適化が欠如している。
我々は、データ再構成と計算コード最適化を共同で最適化するPIMシステムのための、最初のデータ中心のMLコンパイラDCCを設計する。
論文 参考訳(メタデータ) (2025-11-19T14:58:16Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。
PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文 参考訳(メタデータ) (2025-02-21T13:52:31Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-05-29T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。