Fugu-MT 論文翻訳(概要): Process-Supervised Reinforcement Learning for Code Generation

論文の概要: Process-Supervised Reinforcement Learning for Code Generation

arxiv url: http://arxiv.org/abs/2502.01715v1
Date: Mon, 03 Feb 2025 16:22:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.54308
Title: Process-Supervised Reinforcement Learning for Code Generation
Title（参考訳）: コード生成のためのプロセススーパービジョン強化学習
Authors: Yufan Ye, Ting Zhang, Wenbin Jiang, Hua Huang,
Abstract要約: 結果管理に基づく既存の強化学習戦略は,コード生成のための大規模言語モデルの性能向上に有効であることが証明されている。本稿では,複雑なコード生成タスクに対処するためのプロセス教師付き強化学習戦略を提案する。本研究では,プロセス指導強化学習が,結果管理のみに依存する手法をはるかに上回っていることを示す。
参考スコア（独自算出の注目度）: 21.85925512674604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing reinforcement learning strategies based on outcome supervision have proven effective in enhancing the performance of large language models(LLMs) for code generation. While reinforcement learning based on process supervision has shown great promise in handling multi-step reasoning tasks, its effectiveness in code generation remains largely underexplored and underjustified. The primary obstacle stems from the resource-intensive nature of constructing high-quality process-supervised data, which demands substantial human expertise and computational resources. In response to this challenge, we propose a "statement mutation/refactoring-compile and execution verification" strategy: mutating and refactoring code line-by-line through a teacher model, and utilizing compiler execution results to automatically label each line, resulting in line-by-line process-supervised data, which is pivotal for training a process-supervised reward model. The trained reward model is then integrated into the PRLCoder framework, followed by experimental validation on several benchmarks. Experimental results demonstrate that process-supervised reinforcement learning significantly surpasses methods relying solely on outcome supervision. Notably, in tackling complex code generation tasks, process-supervised reinforcement learning shows a clear advantage, ensuring both the integrity of the code generation process and the correctness of the generation results.
Abstract（参考訳）: 結果管理に基づく既存の強化学習戦略は,コード生成のための大規模言語モデル(LLM)の性能向上に有効であることが証明されている。プロセスの監督に基づく強化学習は、多段階推論タスクの処理において大きな可能性を秘めているが、コード生成におけるその効果は、大半が未調査であり、不適切である。主な障害は、人間の専門知識と計算資源を必要とする高品質なプロセス管理データを構築するという、リソース集約性に起因する。この課題に対応するために,教師モデルを通じてコード行を変更・リファクタリングし,コンパイラの実行結果を利用して各行を自動ラベル付けすることで,プロセス管理報酬モデルのトレーニングに重要なライン・バイ・ライン・プロセス管理データを生成する,“ステートメント変異/リファクタリング/実行検証”戦略を提案する。トレーニングされた報酬モデルはPRLCoderフレームワークに統合され、その後いくつかのベンチマークで実験的に検証される。実験結果から, プロセス指導強化学習は, 結果管理のみに依存する手法をはるかに上回っていることが明らかとなった。特に、複雑なコード生成タスクに取り組む場合、プロセスが監督する強化学習は明らかな利点を示し、コード生成プロセスの完全性と生成結果の正確性の両方を保証する。

関連論文リスト

ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文参考訳（メタデータ） (2025-06-13T03:41:04Z)
Code Execution as Grounded Supervision for LLM Reasoning [36.97199200274124]
チェーン・オブ・ソート(CoT)による大規模言語モデルのトレーニングは,推論能力の向上に有効であることが証明されている。本稿では,プログラム実行の決定性を利用して,高品質なCoT監視データセットを生成するスケーラブルな手法を提案する。提案手法では,コード実行から検証可能なステップバイステップの推論トレースを抽出し,それを自然言語のCoT推論に変換する。
論文参考訳（メタデータ） (2025-06-12T04:36:57Z)
Towards Effective Code-Integrated Reasoning [89.47213509714578]
モデルが必要に応じてコードを生成するコード統合推論について検討し、コードインタプリタを通じてそれを実行することによってフィードバックを統合する。ツール強化強化学習は、学習力学における潜在的な不安定さに悩まされる可能性がある。我々は、探索と安定性のバランスをとるための強化されたトレーニング戦略を開発し、推論性能を改善しながら、ツールの利用能力を徐々に構築する。
論文参考訳（メタデータ） (2025-05-30T11:30:18Z)
Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文参考訳（メタデータ） (2025-05-04T14:44:27Z)
Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文参考訳（メタデータ） (2025-02-14T22:21:56Z)
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文参考訳（メタデータ） (2025-02-04T19:37:35Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Outcome-Refining Process Supervision for Code Generation [28.6680126802249]
大規模言語モデルは、深いアルゴリズム推論を必要とする複雑なプログラミングタスクに苦しむ。本稿では,成果改善自体を監督するプロセスとして扱う新しいパラダイムであるアウトカム・リフィニング・プロセス・スーパービジョンを提案する。このアプローチは,5つのモデルと3つのデータセットに対して,平均26.9%の精度向上と42.2%の効率向上を実現している。
論文参考訳（メタデータ） (2024-12-19T17:59:42Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文参考訳（メタデータ） (2022-03-29T09:30:26Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。