論文の概要: CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
- arxiv url: http://arxiv.org/abs/2602.24286v1
- Date: Fri, 27 Feb 2026 18:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.576044
- Title: CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
- Title(参考訳): CUDAエージェント:高性能CUDAカーネル生成のための大規模エージェントRL
- Authors: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou,
- Abstract要約: Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
- 参考スコア(独自算出の注目度): 51.72529978689561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
- Abstract(参考訳): GPUカーネルの最適化は、現代のディープラーニングの基本であるが、ハードウェアの専門知識を必要とする非常に専門的なタスクである。
汎用プログラミングの性能は高いが、大規模言語モデル(LLM)はCUDAカーネル生成のための torch.compile のようなコンパイラベースのシステムと競合しないままである。
既存のCUDAコード生成アプローチは、トレーニング不要の洗練か、固定されたマルチターン実行フィードバックループ内での微調整モデルに依存するが、両方のパラダイムは、本質的なCUDA最適化能力を根本的に改善できず、性能が制限される。
大規模エージェント強化学習システムであるCUDA Agentは,スケーラブルなデータ合成パイプライン,自動検証とプロファイリングを備えたスキル強化CUDA開発環境,信頼性の高い報酬信号の提供,安定したトレーニングを可能にする強化学習アルゴリズムの3つのコンポーネントを通じて,CUDAカーネルの専門知識を開発する。
CUDA AgentはKernelBenchの最先端の成果を達成し、100\%、100\%、92\%の速度でトーチをコンパイルし、KernelBench Level-1、Level-2、Level-3のスプリットでコンパイルし、Claude Opus 4.5やGemini 3 Proといった最強のプロプライエタリモデルよりも40\%高いパフォーマンスを実現している。
関連論文リスト
- StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning [26.264303471292845]
エンドツーエンドGPUプログラム生成のためのマルチエージェントフレームワークであるStitchCUDAを提案する。
実験の結果、StitchCUDAはエンドツーエンドのプログラミングタスクで100%近く成功し、マルチエージェントベースラインの1.72倍の高速化を実現している。
論文 参考訳(メタデータ) (2026-03-03T06:04:49Z) - K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。
我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文 参考訳(メタデータ) (2026-02-22T11:06:22Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels [17.979042914049842]
拡散大言語モデル (dLLM) は自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
CuKeは、高性能カーネル向けに最適化された拡張データセットである。
DICEはカーネル生成用に設計された拡散大言語モデルである。
論文 参考訳(メタデータ) (2026-02-12T08:45:13Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning [14.142680357918328]
本稿では,新しい対照的なRLアルゴリズムを用いた最適化のための自動学習フレームワークを提案する。
--L1は最適化タスクで大幅なパフォーマンス改善を実現します。
論文 参考訳(メタデータ) (2025-07-18T17:43:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - CUDA: Convolution-based Unlearnable Datasets [77.70422525613084]
現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。
これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
論文 参考訳(メタデータ) (2023-03-07T22:57:23Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。