論文の概要: Kevin: Multi-Turn RL for Generating CUDA Kernels
- arxiv url: http://arxiv.org/abs/2507.11948v1
- Date: Wed, 16 Jul 2025 06:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.253217
- Title: Kevin: Multi-Turn RL for Generating CUDA Kernels
- Title(参考訳): Kevin:CUDAカーネルを生成するマルチスレッドRL
- Authors: Carlo Baronio, Pietro Marsella, Ben Pan, Simon Guo, Silas Alberti,
- Abstract要約: 我々は,現実の環境で遭遇するユニークな課題に対処する,柔軟なマルチターンRLレシピを開発した。
評価設定では、Kevinはベースモデルよりも大幅に向上している。
また,テスト時のスケーリング軸の挙動についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing GPU kernels is a challenging task and critical for AI systems' efficiency. It is also highly iterative: domain experts write code and improve performance through execution feedback. Moreover, it presents verifiable rewards like correctness and speedup, making it a natural environment to apply Reinforcement Learning (RL). To explicitly incorporate the iterative nature of this process into training, we develop a flexible multi-turn RL recipe that addresses unique challenges encountered in real-world settings, such as learning from long trajectories and effective reward attribution across turns. We present Kevin - K(ernel D)evin, the first model trained with multi-turn RL for CUDA kernel generation and optimization. In our evaluation setup, Kevin shows significant gains over its base model (QwQ-32B), improving correctness of generated kernels (in pure CUDA) from 56% to 82% and mean speedup from 0.53x to 1.10x of baseline (PyTorch Eager), and surpassing frontier models like o4-mini (0.78x). Finally, we study its behavior across test-time scaling axes: we found scaling serial refinement more beneficial than parallel sampling. In particular, when given more refinement turns, Kevin shows a higher rate of improvement.
- Abstract(参考訳): GPUカーネルを書くことは難しい課題であり、AIシステムの効率に欠かせない。
ドメインの専門家はコードを書き、実行フィードバックを通じてパフォーマンスを向上させる。
さらに、正しさやスピードアップといった検証可能な報酬が提示され、強化学習(RL)を適用する自然環境となる。
このプロセスの反復的な性質をトレーニングに明示的に組み込むため、長い軌道からの学習やターン間の効果的な報酬帰属など、現実の環境で遭遇する固有の課題に対処する柔軟なマルチターンRLレシピを開発した。
本稿では、CUDAカーネル生成と最適化のために、マルチターンRLでトレーニングされた最初のモデルであるKevin-K(ernel D)evinを紹介する。
評価設定では,ベースモデル(QwQ-32B),生成したカーネル(純粋CUDA)の正しさを56%から82%,ベースライン(PyTorch Eager)の平均速度を0.53xから1.10xに向上し,o4-mini(0.78x)などのフロンティアモデルを上回った。
最後に、テスト時間スケーリング軸間の挙動について検討し、並列サンプリングよりもシリアルリファインメントのスケーリングの方が有益であることを示した。
特に、より洗練されたターンを与えられると、ケヴィンはより高い改善率を示す。
関連論文リスト
- Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks [0.0]
我々は,高容量ホップフィールドネットワークを学習するためのカーネルベースの効率的な代替手段として,Kernel Ridge Regression (KRR)を提案する。
KRRはカーネルのトリックを利用し、回帰を通じて双極子状態を予測する。
以上の結果から,KRRはKLRに匹敵する,最先端のストレージ容量($beta$=1.5)と耐雑音性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-04-17T01:17:28Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - Stochastic Kernel Regularisation Improves Generalisation in Deep Kernel Machines [23.09717258810923]
最近の研究は、CIFAR-10で92.7%の精度で、畳み込み型ディープカーネルマシンを開発した。
我々は,畳み込み型ディープカーネルマシンの一般化を改善するために,いくつかの改良を加えている。
その結果、CIFAR-10で94.5%のテスト精度が得られた。
論文 参考訳(メタデータ) (2024-10-08T16:15:53Z) - KernelWarehouse: Rethinking the Design of Dynamic Convolution [16.101179962553385]
KernelWarehouseはカーネルの基本概念を再定義し、カーネルを組み立てる。
我々は、さまざまなConvNetアーキテクチャを用いて、ImageNetおよびMS-COCOデータセットにおけるKernelWarehouseの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-12T05:16:26Z) - InceptionNeXt: When Inception Meets ConvNeXt [147.50287103414115]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeXt-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Integrating Circle Kernels into Convolutional Neural Networks [30.950819638148104]
平方核は現代畳み込みニューラルネットワーク(CNN)の標準単位である
共進化のための等方性受容場を持つ円核を提案する。
我々のトレーニングは、対応するCNNの平方カーネルと比較すると、ほぼ同等の計算量である。
論文 参考訳(メタデータ) (2021-07-06T07:59:36Z) - Kernel Based Progressive Distillation for Adder Neural Networks [71.731127378807]
追加のみを含むAdder Neural Networks(ANN)は、エネルギー消費の少ないディープニューラルネットワークを新たに開発する方法を提供する。
すべての畳み込みフィルタを加算フィルタで置き換える場合、精度の低下がある。
本稿では,トレーニング可能なパラメータを増大させることなく,ANNの性能を向上するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T03:29:19Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。