Fugu-MT 論文翻訳(概要): Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards

論文の概要: Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards

arxiv url: http://arxiv.org/abs/2602.12049v1
Date: Thu, 12 Feb 2026 15:12:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.887882
Title: Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards
Title（参考訳）: Real-Machine Benchmark Rewardsを用いたオンライン強化学習によるLLMのHPCコード生成能力の向上
Authors: Ryo Mikasa, Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Takahiro Katagiri,
Abstract要約: 大規模言語モデル(LLM)は強力なコード生成能力を示しているが、生成されたコードの実行時のパフォーマンスは保証されていない。本稿では,スーパーコンピュータ上でLLM生成コードを実行するオンライン強化学習手法を提案し,実測実行性能(GFLOPS)を報奨としてフィードバックする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated strong code generation capabilities, yet the runtime performance of generated code is not guaranteed, and there have been few attempts to train LLMs using runtime performance as a reward in the HPC domain. We propose an online reinforcement learning approach that executes LLM-generated code on a supercomputer and directly feeds back the measured runtime performance (GFLOPS) as a reward. We further introduce a Staged Quality-Diversity (SQD) algorithm that progressively varies the permitted optimization techniques on a per-problem basis, enabling the model to learn code optimization from diverse perspectives. We build a distributed system connecting a GPU training cluster with a CPU benchmarking cluster, and train Qwen2.5 Coder 14B on a double-precision matrix multiplication task using Group Relative Policy Optimization (GRPO). Through two experiments, we show that reinforcement learning combining runtime performance feedback with staged optimization can improve the HPC code generation capability of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は強力なコード生成機能を示しているが、生成されたコードの実行時のパフォーマンスは保証されていない。本稿では,スーパーコンピュータ上でLLM生成コードを実行し,実測実行性能(GFLOPS)を直接フィードバックするオンライン強化学習手法を提案する。さらに、プロブレムごとに許容される最適化手法を段階的に変化させるSQDアルゴリズムを導入し、多様な視点からコード最適化を学習できるようにする。我々は、GPUトレーニングクラスタとCPUベンチマーククラスタを接続する分散システムを構築し、グループ相対ポリシー最適化(GRPO)を用いて、二重精度行列乗算タスクでQwen2.5 Coder 14Bを訓練する。 2つの実験により,実行時性能フィードバックと段階最適化を組み合わせた強化学習により,LLMのHPCコード生成能力が向上することを示した。

関連論文リスト

LOOPRAG: Enhancing Loop Transformation Optimization with Retrieval-Augmented Large Language Models [23.6344001089164]
LOOPRAGは,Large Language Models (LLM) の効率的なループ最適化を行うための検索拡張生成フレームワークである。ループ特性を利用するパラメータ駆動方式を導入し、様々なループ変換をトリガーし、多様だが合法的なサンプルコードを生成する。正確かつ効率的なコード生成を実現するために,コンパイル,テスト,パフォーマンス結果を組み込んだフィードバックベースの反復機構を導入する。
論文参考訳（メタデータ） (2025-12-12T11:09:48Z)
ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding [15.051729280454454]
本稿では,統一LLM RLパラダイムであるReST-RLを紹介する。改良されたGRPOアルゴリズムと、値モデル(VM)が補助する精密に設計されたテスト時間復号法を組み合わせる。提案するRLパラダイムの有効性を検証するために,符号化問題に関する広範な実験を行った。
論文参考訳（メタデータ） (2025-08-27T05:16:03Z)
ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。関数的正当性とPPA最適化の両方のRTLコードを生成する。 RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文参考訳（メタデータ） (2025-07-07T08:08:20Z)
Prompt engineering and framework: implementation to increase code reliability based guideline for LLMs [0.0]
生成されたコードスニペットの品質と正確性を改善するために,プロンプトテンプレートを導入する。提案手法はPass@kメートル法においてゼロショット法やチェーン・オブ・ソート法(CoT)法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-19T18:33:08Z)
Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文参考訳（メタデータ） (2025-01-01T15:58:51Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。