論文の概要: TritonRL: Training LLMs to Think and Code Triton Without Cheating
- arxiv url: http://arxiv.org/abs/2510.17891v1
- Date: Sat, 18 Oct 2025 21:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.322196
- Title: TritonRL: Training LLMs to Think and Code Triton Without Cheating
- Title(参考訳): TritonRL: LLMを温めずに考え、コーディングするためのトレーニング
- Authors: Jiin Woo, Shaowei Zhu, Allen Nie, Zhen Jia, Yida Wang, Youngsuk Park,
- Abstract要約: TritonRLは、堅牢で自動化されたカーネル合成を可能にする新しいトレーニングフレームワークで訓練されている。
KernelBenchの実験により、TritonRLは、他のTriton固有のモデルを上回る、最先端の精度とスピードアップを達成することを示した。
- 参考スコア(独自算出の注目度): 14.859089778654933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid evolution of large language models (LLMs), the demand for automated, high-performance system kernels has emerged as a key enabler for accelerating development and deployment. We introduce TritonRL, a domain-specialized LLM for Triton kernel generation, trained with a novel training framework that enables robust and automated kernel synthesis. Unlike general-purpose programming languages, Triton kernel generation faces unique challenges due to data scarcity and incomplete evaluation criteria, vulnerable to reward hacking. Our approach addresses these challenges end-to-end by distilling Triton-specific knowledge through supervised fine-tuning on curated datasets, and further improving code quality via reinforcement learning (RL) with robust, verifiable rewards and hierarchical reward assignment. Our RL framework robustly detects reward hacking and guides both reasoning traces and code tokens through fine-grained verification and hierarchical reward decomposition, enabling the model to generate high-quality Triton kernels that can truly replace existing modules. With robust and fine-grained evaluation, our experiments on KernelBench demonstrate that TritonRL achieves state-of-the-art correctness and speedup, surpassing all other Triton-specific models and underscoring the effectiveness of our RL-based training paradigm.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化に伴い、自動化された高性能なシステムカーネルへの需要が、開発とデプロイメントを加速するための重要な実現手段として浮上した。
本稿では,Tritonカーネル生成のためのドメイン特化LLMであるTritonRLを紹介する。
汎用プログラミング言語とは異なり、Tritonカーネル生成はデータ不足と不完全な評価基準のためにユニークな課題に直面している。
提案手法は,厳密で検証可能な報酬と階層的な報酬を与える強化学習(RL)によるコード品質の向上を通じて,トリトン固有の知識を抽出し,これらの課題に対処する。
我々のRLフレームワークは、報酬のハッキングを強力に検出し、詳細な検証と階層的な報酬分解を通じて、トレースとコードトークンの推論の両方をガイドし、モデルが既存のモジュールを真に置き換えることのできる高品質なトリトンカーネルを生成することを可能にする。
堅牢かつきめ細かい評価により,TritonRLはTriton固有のモデルをすべて越え,RLベースのトレーニングパラダイムの有効性を実証し,最先端の精度とスピードアップを実現している。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs [87.8306870967343]
我々は、強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。
AutoTritonは、高品質なデータ収集パイプラインを使用して、本質的なTritonプログラミング専門知識を備えた教師付き微調整(SFT)を実行する。
TritonBenchとKernelBenchの5つの評価チャネルでの実験は、我々の8BモデルAutoTritonがメインストリームの大規模モデルに匹敵するパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2025-07-08T05:38:24Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators [59.625889531331815]
Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-20T17:21:27Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬手法の信頼性のある実装を提供する,統一的で高度にモジュール化されたプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。