論文の概要: Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations
- arxiv url: http://arxiv.org/abs/2602.05885v1
- Date: Thu, 05 Feb 2026 17:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.06789
- Title: Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations
- Title(参考訳): カーネル博士:トリトンカーネルジェネレーションのための強化学習が正しい
- Authors: Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He,
- Abstract要約: カーネル生成のための強化学習(RL)について検討する。
そこで我々は,不偏利推定を行うために,ターンレベル強化-Leave-One-Out (TRLOO)を提案する。
プロファイリングベースのリワード(PR)とプロファイリングベースのリジェクションサンプリング(PRS)を組み込んでこの問題を克服する。
- 参考スコア(独自算出の注目度): 32.98036846113632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality kernel is critical for scalable AI systems, and enabling LLMs to generate such code would advance AI development. However, training LLMs for this task requires sufficient data, a robust environment, and the process is often vulnerable to reward hacking and lazy optimization. In these cases, models may hack training rewards and prioritize trivial correctness over meaningful speedup. In this paper, we systematically study reinforcement learning (RL) for kernel generation. We first design KernelGYM, a robust distributed GPU environment that supports reward hacking check, data collection from multi-turn interactions and long-term RL training. Building on KernelGYM, we investigate effective multi-turn RL methods and identify a biased policy gradient issue caused by self-inclusion in GRPO. To solve this, we propose Turn-level Reinforce-Leave-One-Out (TRLOO) to provide unbiased advantage estimation for multi-turn RL. To alleviate lazy optimization, we incorporate mismatch correction for training stability and introduce Profiling-based Rewards (PR) and Profiling-based Rejection Sampling (PRS) to overcome the issue. The trained model, Dr.Kernel-14B, reaches performance competitive with Claude-4.5-Sonnet in Kernelbench. Finally, we study sequential test-time scaling for Dr.Kernel-14B. On the KernelBench Level-2 subset, 31.6% of the generated kernels achieve at least a 1.2x speedup over the Torch reference, surpassing Claude-4.5-Sonnet (26.7%) and GPT-5 (28.6%). When selecting the best candidate across all turns, this 1.2x speedup rate further increases to 47.8%. All resources, including environment, training code, models, and dataset, are included in https://www.github.com/hkust-nlp/KernelGYM.
- Abstract(参考訳): スケーラブルなAIシステムでは高品質なカーネルが重要であり、LLMがそのようなコードを生成することがAI開発を前進させる。
しかし、このタスクのためにLLMをトレーニングするには十分なデータ、堅牢な環境が必要であり、そのプロセスはハッキングや遅延最適化に報いるために脆弱であることが多い。
このような場合、モデルはトレーニング報酬をハックし、意味のあるスピードアップよりも自明な正しさを優先する。
本稿では,カーネル生成のための強化学習(RL)を体系的に研究する。
我々はまず,報奨ハッキングチェック,マルチターンインタラクションからのデータ収集,長期RLトレーニングをサポートする,堅牢な分散GPU環境であるKernelGYMを設計する。
KernelGYM に基づく実効マルチターン RL 法について検討し,GRPO の自己包摂性に起因する偏りのある政策勾配問題を同定した。
そこで本稿では,マルチターンRLの非バイアス利得推定を実現するために,TRLOO(Turn-level Reinforce-Leave-One-Out)を提案する。
遅延最適化を緩和するために、トレーニング安定のためのミスマッチ補正を導入し、プロファイリングベースのリワード(PR)とプロファイリングベースのリジェクションサンプリング(PRS)を導入して問題を克服する。
訓練されたモデルであるDr.Kernel-14Bは、ケルネルベンチのClaude-4.5-Sonnetと競合する性能に達した。
最後に,Dr.Kernel-14Bにおける連続的なテスト時間スケーリングについて検討する。
KernelBench Level-2サブセットでは、生成されたカーネルの31.6%がTorch参照を少なくとも1.2倍高速化し、Claude-4.5-Sonnet (26.7%) と GPT-5 (28.6%) を上回った。
全ターンで最高の候補を選択すると、この1.2倍のスピードアップ率が47.8%に向上する。
環境、トレーニングコード、モデル、データセットを含むすべてのリソースはhttps://www.github.com/hkust-nlp/KernelGYMに含まれる。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Kevin: Multi-Turn RL for Generating CUDA Kernels [0.0]
我々は,現実の環境で遭遇するユニークな課題に対処する,柔軟なマルチターンRLレシピを開発した。
評価設定では、Kevinはベースモデルよりも大幅に向上している。
また,テスト時のスケーリング軸の挙動についても検討した。
論文 参考訳(メタデータ) (2025-07-16T06:33:07Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks [0.0]
我々は,高容量ホップフィールドネットワークを学習するためのカーネルベースの効率的な代替手段として,Kernel Ridge Regression (KRR)を提案する。
KRRはカーネルのトリックを利用し、回帰を通じて双極子状態を予測する。
以上の結果から,KRRはKLRに匹敵する,最先端のストレージ容量(ストレージ負荷1.5)と耐雑音性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-04-17T01:17:28Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。