論文の概要: Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
- arxiv url: http://arxiv.org/abs/2505.23387v1
- Date: Thu, 29 May 2025 12:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.845977
- Title: Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
- Title(参考訳): Afterburner: 強化学習はコード効率の最適化を自己改善する
- Authors: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng,
- Abstract要約: 大規模言語モデルは機能的に正しいソリューションを生成するが、コード効率が不足することが多い。
この問題に対処する新しいテストタイム反復最適化フレームワークを導入する。
- 参考スコア(独自算出の注目度): 44.59988527341083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) generate functionally correct solutions but often fall short in code efficiency, a critical bottleneck for real-world deployment. In this paper, we introduce a novel test-time iterative optimization framework to address this, employing a closed-loop system where LLMs iteratively refine code based on empirical performance feedback from an execution sandbox. We explore three training strategies: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Group Relative Policy Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO, using reinforcement learning (RL) with execution feedback, continuously optimizes code performance, significantly boosting both pass@1 (from 47% to 62%) and the likelihood of outperforming human submissions in efficiency (from 31% to 45%). Our work demonstrates effective test-time code efficiency improvement and critically reveals the power of RL in teaching LLMs to truly self-improve code efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は機能的に正しいソリューションを生成するが、実際のデプロイメントにおいて重要なボトルネックであるコード効率に欠けることが多い。
本稿では,LLMが実行サンドボックスからの経験的性能フィードバックに基づいてコードを反復的に洗練するクローズドループシステムを用いて,この問題に対処する新しいテスト時間反復最適化フレームワークを提案する。
本稿では,3つのトレーニング戦略について検討する。スーパーバイザード・ファインチューニング(SFT),ダイレクト・パラメータ最適化(DPO),グループ・相対的政策最適化(GRPO)である。
我々のVenusデータセットとAPPSベンチマークの実験は、SFTとDPOが急速に効率の向上に飽和していることを示している。
これとは対照的に、GRPOは強化学習(RL)と実行フィードバックを併用して、コードパフォーマンスを継続的に最適化し、pass@1(47%から62%)と、効率性(31%から45%)で人間の提案を上回る可能性の両方を著しく向上させる。
我々の研究は、テスト時のコード効率の改善を効果的に示しており、LLMを自己改善するコード効率を教える上で、RLのパワーを批判的に明らかにしている。
関連論文リスト
- PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Measuring Code Efficiency Optimization Capabilities with ACEOB [7.4056083791645495]
モデルトレーニングデータセットの「コードパターン」を詳細に分析し、人間の手書きコードを慎重に探索する。
95,359組の効率非効率コードからなる自動コード効率最適化ベンチマーク(ACEOB)を導入する。
私たちの知る限り、ACEOBはPythonコードの効率最適化に特化した最初のデータセットです。
論文 参考訳(メタデータ) (2024-08-23T10:10:37Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。