論文の概要: AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search
- arxiv url: http://arxiv.org/abs/2603.21331v1
- Date: Sun, 22 Mar 2026 17:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.361452
- Title: AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search
- Title(参考訳): AutoKernel: 反復エージェント駆動検索による自動GPUカーネル最適化
- Authors: Jaber Jaber, Osama Jaber,
- Abstract要約: Auto Kernelは、任意のPyTorchモデルのGPUカーネル最適化に自律エージェントループを適用するフレームワークである。
システムには、9000行以上のPythonと、2つのバックエンドにまたがる18のスターターカーネル実装、6層最適化プレイブック、KernelBenchベンチマークスイートとの統合が含まれている。
NVIDIA H100では、テストされたプレイブックの大部分で、私たちのTritonカーネルがPyTorchとTorch.compile(max-autotune)の両方を上回っています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing high-performance GPU kernels is among the most labor-intensive tasks in machine learning systems engineering. We present AutoKernel, an open-source framework that applies an autonomous agent loop to GPU kernel optimization for arbitrary PyTorch models. Given a model, AutoKernel profiles it to identify computational bottlenecks, ranks them by Amdahl's law impact, and iteratively refines Triton or CUDA C++ kernel implementations through hundreds of experiments without human intervention. A five-stage correctness harness covering smoke tests, shape sweeps, numerical stability, determinism verification, and edge-case coverage ensures every candidate kernel is validated before any speedup is recorded. The system comprises over 9,000 lines of Python, 18 starter kernel implementations across two backends, a six-tier optimization playbook, and integration with the KernelBench benchmark suite. AutoKernel covers nine kernel types spanning the dominant operations in modern transformer architectures. On an NVIDIA H100, our Triton kernels outperform both PyTorch eager and torch.compile (max-autotune) on the majority of tested configurations: 5.29x over eager on RMSNorm, 2.82x on softmax, and 2.21x on cross-entropy, while beating torch.compile by 2.83x, 3.44x, and 2.94x respectively. In community deployment, an AutoKernel-optimized kernel achieved first place on the vectorsum_v2 B200 leaderboard. The full system is available at https://github.com/RightNow-AI/autokernel.
- Abstract(参考訳): 高性能GPUカーネルを書くことは、機械学習システムエンジニアリングにおいて最も労働集約的なタスクの一つである。
任意のPyTorchモデルに対して,GPUカーネル最適化に自律エージェントループを適用するオープンソースフレームワークであるAutoKernelを提案する。
モデルが与えられた場合、AutoKernelは計算ボトルネックを特定し、Amdahlの法則の影響でランク付けし、人間による介入なしに数百の実験を通じて、TritonやCUDA C++のカーネル実装を反復的に洗練する。
スモークテスト、シェイプスイープ、数値安定性、決定性検証、エッジケースカバレッジをカバーする5段階の修正ハーネスは、任意のスピードアップが記録される前にすべての候補カーネルが検証されることを保証する。
システムには、9000行以上のPythonと、2つのバックエンドにまたがる18のスターターカーネル実装、6層最適化プレイブック、KernelBenchベンチマークスイートとの統合が含まれている。
AutoKernelは、現代のトランスフォーマーアーキテクチャにおいて支配的な操作にまたがる9つのカーネルタイプをカバーしている。
NVIDIA H100では、我々のTritonカーネルは、テスト構成の大部分でPyTorch eagerとtorch.compile(max-autotune)の両方を上回り、RMSNormでは5.29倍、ソフトマックスでは2.82倍、クロスエントロピーでは2.21倍、トーチ.compileでは2.83倍、3.44倍、および2.94倍である。
コミュニティのデプロイでは、AutoKernelに最適化されたカーネルがベクターsum_v2 B200のリーダーボードで1位を獲得した。
完全なシステムはhttps://github.com/RightNow-AI/autokernel.comで入手できる。
関連論文リスト
- KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization [37.008713142905336]
本稿では,デュアルレベルメモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを紹介する。
Kernel Levels 1-3では、KernelSkillはTorch Eagerよりも100%の成功率と平均速度5.44xBench、2.82x、1.92xを達成した。
論文 参考訳(メタデータ) (2026-03-10T13:43:38Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。