論文の概要: Fine-Tuning GPT-5 for GPU Kernel Generation
- arxiv url: http://arxiv.org/abs/2602.11000v1
- Date: Wed, 11 Feb 2026 16:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.17968
- Title: Fine-Tuning GPT-5 for GPU Kernel Generation
- Title(参考訳): GPUカーネル生成のための微細チューニングGPT-5
- Authors: Ali Tehrani, Yahya Emara, Essam Wissam, Wojciech Paluch, Waleed Atallah, Łukasz Dudziak, Mohamed S. Abdelfattah,
- Abstract要約: 本稿では,フロンティアモデルの強化学習のための環境とツールについて述べる。
単一触覚設定では、微調整されたモデルにより、カーネルの正しさが43.7%から77.0%に向上する。
完全なコーディングエージェントに統合されると、拡張されたKernelBenchスイートで97.4%の問題を解決することができる。
- 参考スコア(独自算出の注目度): 5.109141377873154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing efficient GPU kernels is essential for scaling modern AI systems, yet it remains a complex task due to intricate hardware architectures and the need for specialized optimization expertise. Although Large Language Models (LLMs) demonstrate strong capabilities in general sequential code generation, they face significant challenges in GPU code generation because of the scarcity of high-quality labeled training data, compiler biases when generating synthetic solutions, and limited generalization across hardware generations. This precludes supervised fine-tuning (SFT) as a scalable methodology for improving current LLMs. In contrast, reinforcement learning (RL) offers a data-efficient and adaptive alternative but requires access to relevant tools, careful selection of training problems, and a robust evaluation environment. We present Makora's environment and tools for reinforcement learning finetuning of frontier models and report our results from fine-tuning GPT-5 for Triton code generation. In the single-attempt setting, our fine-tuned model improves kernel correctness from 43.7% to 77.0% (+33.3 percentage points) and increases the fraction of problems outperforming TorchInductor from 14.8% to 21.8% (+7 percentage points) compared to baseline GPT-5, while exceeding prior state-of-the-art models on KernelBench. When integrated into a full coding agent, it is able to solve up to 97.4% of problems in an expanded KernelBench suite, outperforming the PyTorch TorchInductor compiler on 72.9% of problems with a geometric mean speedup of 2.12x. Our work demonstrates that targeted post-training with reinforcement learning can unlock LLM capabilities in highly specialized technical domains where traditional supervised learning is limited by data availability, opening new pathways for AI-assisted accelerator programming.
- Abstract(参考訳): 効率的なGPUカーネルの開発は、現代のAIシステムのスケーリングには不可欠だが、複雑なハードウェアアーキテクチャと特別な最適化専門知識の必要性のため、依然として複雑な作業である。
LLM(Large Language Models)は、一般的なシーケンシャルコード生成において強力な機能を示すが、高品質なラベル付きトレーニングデータの不足、合成ソリューションの生成時のコンパイラバイアス、ハードウェア世代にわたる限定的な一般化など、GPUコード生成において大きな課題に直面している。
これにより、現在のLLMを改善するためのスケーラブルな方法論として、教師付き微調整(SFT)が妨げられる。
対照的に、強化学習(RL)はデータ効率で適応的な代替手段を提供するが、関連するツールへのアクセス、トレーニング問題の慎重に選択、堅牢な評価環境を必要とする。
本稿では,フロンティアモデルの強化学習のための環境とツールについて述べるとともに,トリトン符号生成のための微調整 GPT-5 の結果を報告する。
単一触覚設定では、カーネルの正当性は43.7%から77.0%(+33.3%)に向上し、KernelBenchの先行技術モデルよりも14.8%から21.8%(+7パーセント)に向上した。
完全なコーディングエージェントに統合されると、拡張されたKernelBenchスイートの97.4%の問題を解き、幾何学平均速度2.12倍の72.9%でPyTorch TorchInductorコンパイラより優れている。
我々の研究は、従来の教師付き学習がデータアベイラビリティによって制限される高度な専門分野において、強化学習による学習後の目標学習がLLM能力を解放できることを示し、AI支援アクセラレータプログラミングのための新しいパスを開放する。
関連論文リスト
- Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations [32.98036846113632]
カーネル生成のための強化学習(RL)について検討する。
そこで我々は,不偏利推定を行うために,ターンレベル強化-Leave-One-Out (TRLOO)を提案する。
本稿では、プロファイリングに基づくリワード(PR)とプロファイリングに基づくリジェクションサンプリング(PRS)を導入し、この問題を克服する。
論文 参考訳(メタデータ) (2026-02-05T17:01:09Z) - AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units [39.846358001824996]
我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
論文 参考訳(メタデータ) (2026-01-12T03:12:58Z) - QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - ConCuR: Conciseness Makes State-of-the-Art Kernel Generation [5.010229074860956]
カーネル生成の主な課題は、高品質なデータの不足である。
我々は,高品質なカーネルを推論トレースで生成し,キュレートするパイプラインを開発した。
本稿では,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
論文 参考訳(メタデータ) (2025-10-08T15:41:15Z) - LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。
我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文 参考訳(メタデータ) (2025-04-29T21:42:59Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。