論文の概要: AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs
- arxiv url: http://arxiv.org/abs/2507.05687v1
- Date: Tue, 08 Jul 2025 05:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.634804
- Title: AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs
- Title(参考訳): AutoTriton: LLMにおける強化学習による自動トリトンプログラミング
- Authors: Shangzhan Li, Zefan Wang, Ye He, Yuxuan Li, Qi Shi, Jianling Li, Yonggang Hu, Wanxiang Che, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 我々は、強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。
AutoTritonは、高品質なデータ収集パイプラインを使用して、本質的なTritonプログラミング専門知識を備えた教師付き微調整(SFT)を実行する。
TritonBenchとKernelBenchの5つの評価チャネルでの実験は、我々の8BモデルAutoTritonがメインストリームの大規模モデルに匹敵するパフォーマンスを実現していることを示している。
- 参考スコア(独自算出の注目度): 87.8306870967343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kernel development in deep learning requires optimizing computational units across hardware while balancing memory management, parallelism, and hardware-specific optimizations through extensive empirical tuning. Although domain-specific languages like Triton simplify GPU programming by abstracting low-level details, developers must still manually tune critical parameters such as tile sizes and memory access patterns through iterative experimentation, creating substantial barriers to optimal performance and wider adoption. In this work, we introduce AutoTriton, the first model dedicated to Triton programming powered by reinforcement learning (RL). AutoTriton performs supervised fine-tuning (SFT) to be equipped with essential Triton programming expertise using a high-quality data gathering pipeline, and conducts RL with Group Relative Policy Optimization (GRPO) algorithm, combining a rule-based reward and an execution-based reward to further improve Triton programming ability, sequentially. Experiments across five evaluation channels of TritonBench and KernelBench illustrate that our 8B model AutoTriton achieves performance comparable to mainstream large models, including Claude-4-Sonnet and DeepSeek-R1-0528. Further experimental analysis demonstrates the crucial role of each module within AutoTriton, including the SFT stage, the RL stage, and the reward design strategy. These findings underscore the promise of RL for automatically generating high-performance kernels, and since high-performance kernels are core components of AI systems, this breakthrough establishes an important foundation for building more efficient AI systems. The model and code will be available at https://github.com/AI9Stars/AutoTriton.
- Abstract(参考訳): ディープラーニングにおけるカーネル開発では、メモリ管理、並列処理、ハードウェア固有の最適化のバランスを保ちながら、ハードウェア全体の計算ユニットを最適化する必要がある。
Tritonのようなドメイン固有言語は、低レベルの詳細を抽象化することでGPUプログラミングを単純化するが、開発者は反復的な実験を通じてタイルサイズやメモリアクセスパターンなどの重要なパラメータを手作業で調整する必要がある。
本稿では,強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。
AutoTritonは、高品質なデータ収集パイプラインを使用して、重要なトリトンプログラミング専門知識を備えるための教師付き微調整(SFT)を行い、ルールベースの報酬と実行ベースの報酬を組み合わせて、順次トリトンプログラミング能力を向上するグループ相対ポリシー最適化(GRPO)アルゴリズムを用いてRLを実行する。
TritonBenchとKernelBenchの5つの評価チャネルでの実験では、私たちの8BモデルAutoTritonが、Claude-4-SonnetやDeepSeek-R1-0528といった主流の大規模モデルに匹敵するパフォーマンスを実現している。
さらに実験的に、SFTステージ、RLステージ、報酬設計戦略を含むAutoTritonの各モジュールが重要な役割を担っていることを示す。
これらの発見は、高性能カーネルを自動生成するRLの約束を強調しており、ハイパフォーマンスカーネルはAIシステムの中核的なコンポーネントであるため、このブレークスルーはより効率的なAIシステムを構築するための重要な基盤を確立している。
モデルとコードはhttps://github.com/AI9Stars/AutoTriton.comから入手できる。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators [59.625889531331815]
Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-20T17:21:27Z) - AutoSculpt: A Pattern-based Model Auto-pruning Framework Using Reinforcement Learning and Graph Learning [32.10443611442628]
AutoSculptは、ディープニューラルネットワーク(DNN)のためのパターンベースの自動プルーニングフレームワーク
既存の推論エンジンで認識可能なDNNアーキテクチャ内の規則的なパターンを自動的に識別し、特定する。
最大90%の刈り取り率と約18%の改善を達成し、全てのベースラインを上回ります。
論文 参考訳(メタデータ) (2024-12-24T02:05:51Z) - Quantized Distillation: Optimizing Driver Activity Recognition Models
for Resource-Constrained Environments [34.80538284957094]
本稿では,資源効率の高いドライバアクティビティ認識のための軽量フレームワークを提案する。
このフレームワークは、ビデオ分類のスピードに最適化されたニューラルネットワークである3D MobileNetを強化する。
モデルサイズを3倍に削減し、推論時間を1.4倍改善する。
論文 参考訳(メタデータ) (2023-11-10T10:07:07Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。