論文の概要: MaxCode: A Max-Reward Reinforcement Learning Framework for Automated Code Optimization
- arxiv url: http://arxiv.org/abs/2601.05475v1
- Date: Fri, 09 Jan 2026 02:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.813441
- Title: MaxCode: A Max-Reward Reinforcement Learning Framework for Automated Code Optimization
- Title(参考訳): MaxCode: 自動コード最適化のためのMax-Reward強化学習フレームワーク
- Authors: Jiefu Ou, Sapana Chaudhary, Kaj Bostrom, Nathaniel Weir, Shuai Zhang, Huzefa Rangwala, George Karypis,
- Abstract要約: 大きな言語モデル(LLM)は、一般的なコーディングタスクにおいて強力な能力を示すが、コードの最適化には2つの重要な課題に直面する。
本研究では,LLMがよりよい解を見つけるための推論時間探索アルゴリズムについて検討する。
MaxCodeと呼ばれる我々の手法は、マックス・リワード強化学習フレームワークの下で既存の検索方法を統一する。
- 参考スコア(独自算出の注目度): 44.27213441671799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong capabilities in general coding tasks but encounter two key challenges when optimizing code: (i) the complexity of writing optimized code (such as performant CUDA kernels and competition-level CPU code) requires expertise in systems, algorithms and specific languages and (ii) requires interpretation of performance metrics like timing and device utilization beyond binary correctness. In this work, we explore inference-time search algorithms that guide the LLM to discover better solutions through iterative refinement based on execution feedback. Our approach, called MaxCode unifies existing search methods under a max-reward reinforcement learning framework, making the observation and action-value functions modular for modification. To enhance the observation space, we integrate a natural language critique model that converts raw execution feedback into diagnostic insights about errors and performance bottlenecks, and the best-discounted reward seen so far. Together, these provide richer input to the code proposal function. To improve exploration during search, we train a generative reward-to-go model using action values from rollouts to rerank potential solutions. Testing on the KernelBench (CUDA) and PIE (C++) optimization benchmarks shows that MaxCode improves optimized code performance compared to baselines, achieving 20.3% and 10.1% relative improvements in absolute speedup value and relative speedup ranking, respectively.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一般的なコーディングタスクにおいて強力な能力を示すが、コードの最適化には2つの重要な課題に直面する。
i)最適化されたコードを書く複雑さ(性能の高いCUDAカーネルや競合レベルのCPUコードなど)には、システム、アルゴリズム、特定の言語に関する専門知識が必要である。
(ii) タイミングやデバイス利用などのパフォーマンス指標をバイナリの正確性を超えて解釈する必要がある。
本研究では, LLM を誘導する推論時間探索アルゴリズムを探索し, 実行フィードバックに基づく反復的改善によるより良い解の探索を行う。
MaxCodeと呼ばれる我々の手法は、最大逆強化学習フレームワークの下で既存の探索手法を統一し、観測関数と行動値関数をモジュール化して修正する。
観察空間を強化するため,本研究では,生の実行フィードバックを誤りや性能ボトルネックに関する診断的洞察に変換する自然言語批判モデルを統合する。
これらは共に、コード提案機能へのより豊富なインプットを提供します。
探索中の探索を改善するために,ロールアウトからのアクション値を用いて生成的な報奨モデルを構築し,潜在的な解を再現する。
KernelBench (CUDA) と PIE (C++) の最適化ベンチマークをテストすると、MaxCode はベースラインよりも最適化されたコード性能を改善し、それぞれ絶対スピードアップ値と相対スピードアップランキングの20.3%と10.1%を達成している。
関連論文リスト
- FasterPy: An LLM-based Code Execution Efficiency Optimization Framework [11.766544835516974]
コードはしばしばパフォーマンスのバグに悩まされる。
従来のルールベースのメソッドは、特定のパフォーマンスバグに対するルールを手動で設計し、保守することに依存しています。
我々は,Pythonコードの実行効率を最適化するために,大規模言語モデルを適用するフレームワークであるFasterPyを提案する。
論文 参考訳(メタデータ) (2025-12-28T07:43:08Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models [0.0]
大規模言語モデル(LLM)は、コード最適化に革命をもたらすAIアプローチの可能性に関する興味深い疑問を提起する。
この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としている。
本稿では3つの古典最適化コンパイラと2つの最近の大規模言語モデルの比較分析を行う。
論文 参考訳(メタデータ) (2024-06-17T23:26:41Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。