論文の概要: Improving LLM-Generated Code Quality with GRPO
- arxiv url: http://arxiv.org/abs/2506.02211v1
- Date: Mon, 02 Jun 2025 19:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.999911
- Title: Improving LLM-Generated Code Quality with GRPO
- Title(参考訳): GRPOによるLLM生成コード品質の向上
- Authors: Maxime Robeyns, Laurence Aitchison,
- Abstract要約: コード品質の様々な側面を定量化するライブラリを開発し,GRPOの報酬として利用する。
この測定によりGRPOはコード品質を向上し、専門家や盲目の人間アノテータによって確認される。
- 参考スコア(独自算出の注目度): 25.958907308877148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are gaining widespread use for code generation. Recent training procedures use execution feedback as a reward signal, typically focusing on the functional correctness of the code, using unit test pass rate as a reward signal. However, this reward signal fails to capture notions of maintainability, quality and safety of the code produced. We address this under-explored area and develop a comprehensive library to quantify various aspects of code quality, and use it as a reward in GRPO. We find GRPO increases code quality according to this measure, which is confirmed by expert, blinded human annotators.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成に広く利用されている。
最近の訓練手順では、報酬信号として実行フィードバックを使用し、典型的にはコードの機能的正確性に注目し、報酬信号として単体テストパスレートを使用する。
しかし、この報奨信号は、生成したコードの保守性、品質、安全性の概念を捉えるのに失敗する。
我々は、この未調査領域に対処し、コード品質の様々な側面を定量化するための包括的なライブラリを開発し、GRPOの報酬として利用する。
この測定によりGRPOはコード品質を向上し、専門家や盲目の人間アノテータによって確認される。
関連論文リスト
- Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs [1.8838588087156363]
本稿では,コード生成型大規模言語モデル(LLM)の微調整について検討する。
我々は,シンボル実行手法の助けを借りて,報酬モデルのトレーニングデータを強化する。
このデータセットを微調整した報奨モデルでは、ベースラインであるCodeRLよりも大幅に改善されていることが示されています。
論文 参考訳(メタデータ) (2025-04-21T16:29:07Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。