論文の概要: Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs
- arxiv url: http://arxiv.org/abs/2605.03208v1
- Date: Mon, 04 May 2026 22:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.673168
- Title: Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs
- Title(参考訳): Kerncap: AMD GPUのカーネル抽出と分離を自動化する
- Authors: Cole Ramos, Keith Lowery,
- Abstract要約: 反復GPUカーネルチューニングは、カーネルをホストするアプリケーションのスケールによってボトルネックとなる。
我々は、HIPとTritonの両方のHSAランタイムでディスパッチをインターセプトする自動カーネル抽出ツールであるKerncapを紹介する。
Kerncapは、すべてのデバイスメモリのアドレス空間のクロージャを実行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative GPU kernel tuning is bottlenecked by the scale of the applications that host the kernels. Rapid iteration requires isolating the kernel so it can be edited, recompiled, and validated without rebuilding the full application -- but manual isolation requires reconstructing build flags, dispatch configuration, and runtime inputs by hand, so developers usually settle for slow in-place edits. We present Kerncap, an automated kernel extraction tool that intercepts dispatches at the HSA runtime for both HIP and Triton, bridging Triton's JIT-only metadata into HSA-level capture via a lightweight Python compile-hook shim. Kerncap performs an address-space closure of all device memory -- a virtual-address-faithful snapshot that preserves embedded device pointers without DWARF metadata or pointer chasing -- locates kernel sources, and emits self-contained reproducer projects. HIP reproducers use a Clang VFS overlay for source-level recompilation without modifying the original build system; Triton reproducers are tuning-pinned, binding the captured autotuner configuration into the artifact to preserve the JIT kernel's numerical contract. Across six real-world HIP and Triton workloads spanning traditional HPC and ML domains on three AMD GPU architectures (CDNA2, CDNA3, RDNA3), \textsc{Kerncap} extracts and validates kernels from snapshots ranging from 152~MB to 30~GB -- including a VA-faithful capture of vLLM's Mixture-of-Experts weight pool reached through pointer indirection. On our llama.cpp case study, Kerncap's edit-recompile-validate loop achieves a 13.6x speedup over the traditional workflow, reducing kernel isolation from a multi-hour process to a single command. The resulting reproducers also serve as a substrate for autotuning agents and LLM-driven kernel generators that need rapid, isolated evaluation of candidates.
- Abstract(参考訳): 反復GPUカーネルチューニングは、カーネルをホストするアプリケーションのスケールによってボトルネックとなる。
迅速なイテレーションでは、カーネルを分離して、完全なアプリケーションを再構築することなく、編集、再コンパイル、検証を行う必要がある。
我々は、HIPとTritonの両方のHSAランタイムでディスパッチをインターセプトする自動カーネル抽出ツールであるKerncapを紹介し、TritonのJITのみのメタデータを、軽量のPythonコンパイルフックシムを介してHSAレベルのキャプチャにブリッジする。
Kerncapは、DWARFメタデータやポインタ追跡なしで組み込みデバイスポインタを保存する仮想アドレッシングフルスナップショットである、すべてのデバイスメモリのアドレス空間のクロージャを実行し、カーネルソースを特定し、自己完結型レプリケータプロジェクトを出力する。
HIPレデューサはオリジナルのビルドシステムを変更することなくソースレベルの再コンパイルにClang VFSオーバーレイを使用する。
AMD GPUアーキテクチャ(CDNA2, CDNA3, RDNA3), \textsc{Kerncap} は、152~MBから30~GBのスナップショットからカーネルを抽出し、検証する。
llama.cppのケーススタディでは、KerncapのEdit-recompile-validateループが従来のワークフローよりも13.6倍のスピードアップを実現し、マルチ時間プロセスからのカーネル分離を単一のコマンドに短縮しました。
生成した再生器は自動調整エージェントやLSM駆動のカーネルジェネレータの基板としても機能し、候補を迅速かつ孤立的に評価する必要がある。
関連論文リスト
- COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels [11.316541559874864]
プロトタイプスケジューラは、固定幅ヒストグラムを用いて推定したアクティベーションエントロピーを、チャンクサイズ選択のランタイム信号として利用する。
COREYはConcept and Feasibilityのコントリビューションとして位置づけられている。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
論文 参考訳(メタデータ) (2026-04-12T12:07:48Z) - Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization [48.656549870801285]
Kernel-Smithは高性能GPUカーネルと演算子生成のためのフレームワークである。
エージェント側では、Kernel-Smithは実行可能な候補の集団を維持し、反復的にそれらを改善している。
トレーニング側では、長距離進化軌道をステップ中心の監視と強化学習信号に変換する。
論文 参考訳(メタデータ) (2026-03-30T12:12:49Z) - Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis [68.7701048879757]
EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:06Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler [0.0]
エッジデバイスのAIカーネルコンパイルは、並列性を悪用し、メモリレイテンシを隠蔽するコンパイラの能力に依存する。
本稿では,MLIRベースのコンパイルパイプラインにおける3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
論文 参考訳(メタデータ) (2026-02-22T19:14:23Z) - VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - ParaCodex: A Profiling-Guided Autonomous Coding Agent for Reliable Parallel Code Generation and Translation [5.103450268268085]
ParaCodexは、Codexベースのエージェントを自律的なOpenMPオフロードシステムに変換するHPCエンジニアリングワークフローである。
我々は、HeCBench, Rodinia, NAS上で、シリアルCPUカーネルからOpenMPオフロードカーネルへの変換を評価する。
我々は HeCBench 上の 3x と Rodinia 上の 5x の幾何平均スピードアップを達成し、全てのスイートにおいてゼロショットコーデックスベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-07T19:04:53Z) - Tawa: Automatic Warp Specialization for Modern GPUs with Asynchronous References [40.60208235389293]
本稿では,ハイレベルなタイルベースプログラムからワープ特化コードを生成する自動コンパイラTawaを提案する。
Tawaiはプログラムをプロデューサとコンシューマの役割に自動的に分割し、複雑なデータフローパイプラインを管理し、侵入的なカーネル書き換えを回避します。
Tawaiは高いハードウェア利用を提供し、高度に最適化されたcuBLAS GEMMカーネルよりも1.1$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-16T14:20:00Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。