論文の概要: CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.14111v4
- Date: Mon, 28 Jul 2025 07:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.034449
- Title: CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
- Title(参考訳): CUDA-L1: コントラスト強化学習によるCUDA最適化の改善
- Authors: Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum,
- Abstract要約: 本稿では,新しいコントラストアルゴリズムRL-L1を用いた自動強化学習フレームワークを提案する。
NVIDIA A100でトレーニングされたRL-L1では、平均速度はx3.12、中央速度はx1.42で、カーネルBenchの全250カーネルで最大速度はx120に達する。
- 参考スコア(独自算出の注目度): 35.06696271451966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth in demand for GPU computing resources has created an urgent need for automated CUDA optimization strategies. While recent advances in LLMs show promise for code generation, current SOTA models achieve low success rates in improving CUDA speed. In this paper, we introduce CUDA-L1, an automated reinforcement learning framework for CUDA optimization that employs a novel contrastive RL algorithm. CUDA-L1 achieves significant performance improvements on the CUDA optimization task: trained on NVIDIA A100, it delivers an average speedup of x3.12 with a median speedup of x1.42 across all 250 CUDA kernels of KernelBench, with peak speedups reaching x120. Furthermore, the model also demonstrates portability across GPU architectures, achieving average speedups of x3.12 on L40, x2.50 on RTX 3090, x2.39 on H100, and x2.37 on H20 despite being optimized specifically for A100. The capabilities of CUDA-L1 demonstrate that, RL can transform an initially poor-performing LLM into an effective CUDA optimizer through speedup-based reward signals alone, without human expertise or domain knowledge. This paradigm opens possibilities for automated optimization of CUDA operations, and holds promise to substantially promote GPU efficiency and alleviate the rising pressure on GPU computing resources. We also identify important challenges posed by training RL models for tasks like CUDA development, where RL often learns to exploit loopholes in reward functions rather than solve the intended optimization problems. By identifying these failure modes and analyzing their root causes, we develop practical methods for creating more robust training procedures that prevent reward hacking.
- Abstract(参考訳): GPUコンピューティングリソースの需要の指数的な増加は、自動CUDA最適化戦略に対する緊急の需要を生み出している。
LLMの最近の進歩はコード生成を約束することを示しているが、現在のSOTAモデルはCUDA速度を改善するために低い成功率を達成する。
本稿では,新しいコントラッシブRLアルゴリズムを用いたCUDA最適化のための自動強化学習フレームワークであるCUDA-L1を紹介する。
NVIDIA A100でトレーニングされたCUDA-L1は、平均速度はx3.12で、平均速度はx1.42で、KernelBenchの全250のCUDAカーネルで最大速度はx120である。
さらにこのモデルはGPUアーキテクチャ間の移植性も示しており、L40ではx3.12、RTX 3090ではx2.50、H100ではx2.39、H20ではx2.37という平均的なスピードアップを実現している。
CUDA-L1の能力は、RLが人間の専門知識やドメイン知識を使わずに、スピードアップベースの報酬信号だけで、初期性能の悪いLLMを効果的なCUDAオプティマイザに変換できることを実証している。
このパラダイムはCUDA操作の自動最適化の可能性を開放し、GPU効率を大幅に向上し、GPUコンピューティングリソースの上昇圧力を軽減することを約束している。
また、CUDA開発のようなタスクのためにRLモデルをトレーニングすることで生じる重要な課題についても検討する。
これらの障害モードを特定し、根本原因を解析することにより、報酬ハッキングを防止するためのより堅牢なトレーニング手順を作成するための実践的手法を開発する。
関連論文リスト
- Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。
資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。
本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文 参考訳(メタデータ) (2025-06-28T01:50:13Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。