論文の概要: Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards
- arxiv url: http://arxiv.org/abs/2602.12049v1
- Date: Thu, 12 Feb 2026 15:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.887882
- Title: Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards
- Title(参考訳): Real-Machine Benchmark Rewardsを用いたオンライン強化学習によるLLMのHPCコード生成能力の向上
- Authors: Ryo Mikasa, Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Takahiro Katagiri,
- Abstract要約: 大規模言語モデル(LLM)は強力なコード生成能力を示しているが、生成されたコードの実行時のパフォーマンスは保証されていない。
本稿では,スーパーコンピュータ上でLLM生成コードを実行するオンライン強化学習手法を提案し,実測実行性能(GFLOPS)を報奨としてフィードバックする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong code generation capabilities, yet the runtime performance of generated code is not guaranteed, and there have been few attempts to train LLMs using runtime performance as a reward in the HPC domain. We propose an online reinforcement learning approach that executes LLM-generated code on a supercomputer and directly feeds back the measured runtime performance (GFLOPS) as a reward. We further introduce a Staged Quality-Diversity (SQD) algorithm that progressively varies the permitted optimization techniques on a per-problem basis, enabling the model to learn code optimization from diverse perspectives. We build a distributed system connecting a GPU training cluster with a CPU benchmarking cluster, and train Qwen2.5 Coder 14B on a double-precision matrix multiplication task using Group Relative Policy Optimization (GRPO). Through two experiments, we show that reinforcement learning combining runtime performance feedback with staged optimization can improve the HPC code generation capability of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なコード生成機能を示しているが、生成されたコードの実行時のパフォーマンスは保証されていない。
本稿では,スーパーコンピュータ上でLLM生成コードを実行し,実測実行性能(GFLOPS)を直接フィードバックするオンライン強化学習手法を提案する。
さらに、プロブレムごとに許容される最適化手法を段階的に変化させるSQDアルゴリズムを導入し、多様な視点からコード最適化を学習できるようにする。
我々は、GPUトレーニングクラスタとCPUベンチマーククラスタを接続する分散システムを構築し、グループ相対ポリシー最適化(GRPO)を用いて、二重精度行列乗算タスクでQwen2.5 Coder 14Bを訓練する。
2つの実験により,実行時性能フィードバックと段階最適化を組み合わせた強化学習により,LLMのHPCコード生成能力が向上することを示した。
関連論文リスト
- ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding [15.051729280454454]
本稿では,統一LLM RLパラダイムであるReST-RLを紹介する。
改良されたGRPOアルゴリズムと、値モデル(VM)が補助する精密に設計されたテスト時間復号法を組み合わせる。
提案するRLパラダイムの有効性を検証するために,符号化問題に関する広範な実験を行った。
論文 参考訳(メタデータ) (2025-08-27T05:16:03Z) - ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。
関数的正当性とPPA最適化の両方のRTLコードを生成する。
RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文 参考訳(メタデータ) (2025-07-07T08:08:20Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。