論文の概要: Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.11480v1
- Date: Fri, 16 May 2025 17:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.774212
- Title: Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
- Title(参考訳): 強化学習による大規模言語モデルによるアセンブリコードのパフォーマンス向上
- Authors: Anjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いプログラミングタスクにおいて強力なパフォーマンスを示している。
本稿では,PPO(Proximal Policy Optimization)を用いたLLM学習のための強化学習フレームワークを提案する。
我々のモデルであるQwen2.5-Coder-7B-PPOは96.4%のテストパス率を獲得し、gcc-O3ベースライン上での平均速度は1.47倍である。
- 参考スコア(独自算出の注目度): 9.20863636863631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance across a wide range of programming tasks, yet their potential for code optimization remains underexplored. This work investigates whether LLMs can optimize the performance of assembly code, where fine-grained control over execution enables improvements that are difficult to express in high-level languages. We present a reinforcement learning framework that trains LLMs using Proximal Policy Optimization (PPO), guided by a reward function that considers both functional correctness, validated through test cases, and execution performance relative to the industry-standard compiler gcc -O3. To support this study, we introduce a benchmark of 8,072 real-world programs. Our model, Qwen2.5-Coder-7B-PPO, achieves 96.0% test pass rates and an average speedup of 1.47x over the gcc -O3 baseline, outperforming all 20 other models evaluated, including Claude-3.7-sonnet. These results indicate that reinforcement learning can unlock the potential of LLMs to serve as effective optimizers for assembly code performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いプログラミングタスクにおいて強力なパフォーマンスを示してきたが、コード最適化の可能性はまだ未検討である。
本研究は,LLMがアセンブリコードの性能を最適化できるかどうかを考察する。
本稿では,機能的正当性,テストケースによる検証,業界標準コンパイラgcc-O3に対する実行性能の両面を考慮した報奨関数を用いて,PPO(Proximal Policy Optimization)を用いてLLMを訓練する強化学習フレームワークを提案する。
本研究を支援するために,実世界の8,072のプログラムをベンチマークで紹介する。
我々のモデルであるQwen2.5-Coder-7B-PPOは、テストパス率96.0%に達し、gcc-O3ベースライン上での平均速度は1.47xであり、Claude-3.7-sonnetを含む他の20モデルよりも優れている。
これらの結果から,強化学習がLCMの可能性を解き放ち,組立符号性能の最適化に有効であることが示唆された。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Dissecting the Runtime Performance of the Training, Fine-tuning, and
Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。
我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。
次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文 参考訳(メタデータ) (2023-11-07T03:25:56Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。