論文の概要: CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
- arxiv url: http://arxiv.org/abs/2511.01884v2
- Date: Wed, 05 Nov 2025 02:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.159527
- Title: CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
- Title(参考訳): CudaForge:CUDAカーネル最適化のためのハードウェアフィードバックを備えたエージェントフレームワーク
- Authors: Zijian Zhang, Rong Wang, Shiyang Li, Yuebo Luo, Mingyi Hong, Caiwen Ding,
- Abstract要約: CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
- 参考スコア(独自算出の注目度): 36.794824560677064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing efficient CUDA kernels is increasingly critical for AI applications such as large-scale LLM training. However, manual kernel design is both costly and time-consuming, motivating automatic approaches that leverage LLMs for code generation. Existing methods for automatic kernel generation, however, often produce low-efficiency kernels, incur high computational overhead, and fail to generalize across settings. In this work, we propose CudaForge, a training-free multi-agent workflow for CUDA kernel generation and optimization. Our workflow is inspired by the iterative workflow of human experts, which contains steps such as developing initial kernels, testing correctness, analyzing hardware feedback, and iterative improvement. More specifically, CudaForge employs two LLM agents: a Coder and a Judge, that iteratively generate, correct, and optimize CUDA kernels, while integrating hardware feedback such as Nsight Compute (NCU) metrics. In extensive evaluations, we show that CudaForge, by leveraging base models like OpenAI-o3, achieves 97.6\% correctness of generated kernels and an average 1.68$\times$ speedup over PyTorch baselines, substantially surpassing state-of-the-art models including OpenAI-o3 and Kevin on KernelBench.Beyond accuracy and speed, CudaForge demonstrates strong generalization across GPUs (A100, RTX 6000, 4090, 3090) and base models (OpenAI-o3, GPT-5, gpt-oss-120B, Claude-Sonnet-4, QwQ-32B), while maintaining high efficiency. In particular, generating an optimized kernel takes about 26.5 minutes on one RTX6000 and incurs about \$ 0.3 API cost, which is significantly cheaper than existing agentic work that costs 6 H100 hours and \$ 5 API cost per kernel. Our results highlight that multi-agent, training-free workflows can enable cost-effective, generalizable, and high-performance CUDA kernel optimization. Code available at https://github.com/OptimAI-Lab/CudaForge
- Abstract(参考訳): 大規模なLLMトレーニングのようなAIアプリケーションでは、効率的なCUDAカーネルの開発がますます重要になっている。
しかし、手動のカーネル設計はコストも時間もかかり、コード生成にLLMを利用する自動アプローチを動機付けている。
しかし、既存のカーネルの自動生成方法は、しばしば低効率なカーネルを生成し、高い計算オーバーヘッドを発生させ、設定全体にわたって一般化することができない。
本研究では,CUDAカーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローであるCudaForgeを提案する。
私たちのワークフローは、初期カーネルの開発、正確性のテスト、ハードウェアフィードバックの分析、反復的な改善といったステップを含む、人間専門家の反復ワークフローにインスパイアされています。
より具体的には、CudaForgeは2つのLLMエージェント(CoderとJuice)を採用している。これはCUDAカーネルを反復的に生成し、修正し、最適化すると同時に、Nsight Compute(NCU)メトリクスのようなハードウェアフィードバックを統合する。
大規模な評価では、CudaForgeは、OpenAI-o3のようなベースモデルを活用して、生成したカーネルの97.6\%の正しさと平均1.68$\times$PyTorchベースライン上でのスピードアップを実現し、OpenAI-o3やKevin on KernelBenchといった最先端モデルを大幅に上回り、精度と速度の他に、GPU(A100, RTX 6000, 4090, 3090)とベースモデル(OpenAI-o3, GPT-5, gpt-oss-120B, Claude-Sonnet-4, QwQ-32B)と、高い効率を維持しながら、強力な一般化を図っている。
特に、最適化されたカーネルを生成するには1つのRTX6000で約26.5分かかり、約0.3ドルのAPIコストがかかる。
この結果から,マルチエージェント,トレーニング不要なワークフローにより,コスト効率,汎用性,高性能なCUDAカーネル最適化が可能であることが示唆された。
https://github.com/OptimAI-Lab/CudaForgeで公開されているコード
関連論文リスト
- EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models [27.430839306140157]
カーネル最適化を自動化するLarge Language Models (LLMs) が約束する。
汎用LLMコード進化法は、カーネル最適化の厳密な正当性要件を満たすことができない。
EvoEngineerは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する。
提案手法は,PyTorchカーネル上のすべての操作のうち,最大速度のtextbf36.75$times を実現し,textbf28 (textbf56.0%) で最大速度の textbf2times$Acceleration を実現する。
論文 参考訳(メタデータ) (2025-10-04T10:00:25Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。
主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。
本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文 参考訳(メタデータ) (2025-07-31T02:26:58Z) - Kevin: Multi-Turn RL for Generating CUDA Kernels [0.0]
我々は,現実の環境で遭遇するユニークな課題に対処する,柔軟なマルチターンRLレシピを開発した。
評価設定では、Kevinはベースモデルよりも大幅に向上している。
また,テスト時のスケーリング軸の挙動についても検討した。
論文 参考訳(メタデータ) (2025-07-16T06:33:07Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。