Fugu-MT 論文翻訳(概要): Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

論文の概要: Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

arxiv url: http://arxiv.org/abs/2412.15118v2
Date: Fri, 06 Jun 2025 12:13:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.760766
Title: Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation
Title（参考訳）: 実行を通じて推論: コード生成のためのプロセスとアウトカムリワードを統一する
Authors: Zhuohao Yu, Weizheng Gu, Yidong Wang, Xingru Jiang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang,
Abstract要約: 大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。 5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
参考スコア（独自算出の注目度）: 27.484259938667776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models excel at code generation yet struggle with complex programming tasks that demand sophisticated reasoning. To bridge this gap, traditional process supervision relies on learned reward models requiring costly training data and suffering from reward misalignment, while outcome supervision fails for complex tasks needing coordinated intermediate steps. We introduce Outcome Refining Process Supervision, which unifies process and outcome supervision by leveraging executable verification: a tree-structured search framework generates strategic alternatives, profiles execution metrics, and scores candidates via self-critique mechanisms that integrate runtime feedback with reasoning. Experiments across 5 models and 3 benchmarks show consistent gains, with 26.9% higher correctness and 42.2% improved code efficiency. The results demonstrate that ORPS enables LLMs to overcome local optima in code generation, suggesting a promising direction for combining verifiable outcomes with structured reasoning to tackle complex challenges. We open-source at: https://github.com/zhuohaoyu/ORPS
Abstract（参考訳）: 大規模な言語モデルはコード生成に優れていますが、洗練された推論を必要とする複雑なプログラミングタスクに苦戦しています。このギャップを埋めるために、伝統的なプロセスの監督は、コストのかかるトレーニングデータを必要とし、報酬の調整に苦しむ学習された報酬モデルに依存し、一方、結果の監督は、調整された中間ステップを必要とする複雑なタスクで失敗する。本稿では,実行可能検証を活用することでプロセスと結果の監視を統一するアウトカム・リファインティング・プロセス・スーパービジョンを紹介した。木構造検索フレームワークは戦略的代替案を生成し,実行メトリクスをプロファイル化し,実行時のフィードバックを推論と統合する自己批判機構を通じて候補をスコアリングする。 5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。その結果、ORPSはLLMをコード生成における局所最適性を克服し、検証可能な結果と複雑な課題に対処する構造化推論を組み合わせるための有望な方向を示唆している。 https://github.com/zhuohaoyu/ORPS

関連論文リスト

RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。 NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文参考訳（メタデータ） (2025-05-02T16:36:57Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning [11.691011429576243]
本稿では,EpicPRMというフレームワークを紹介し,その定量化貢献に基づいて各中間推論ステップに注釈を付ける。我々は50kの注釈付き中間ステップからなるEpic50kという高品質なプロセス監視トレーニングデータセットを効率的に構築する。
論文参考訳（メタデータ） (2025-03-04T08:18:46Z)
Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文参考訳（メタデータ） (2025-02-14T22:21:56Z)
Process-Supervised Reinforcement Learning for Code Generation [21.85925512674604]
結果管理に基づく既存の強化学習戦略は,コード生成のための大規模言語モデルの性能向上に有効であることが証明されている。本稿では,複雑なコード生成タスクに対処するためのプロセス教師付き強化学習戦略を提案する。本研究では,プロセス指導強化学習が,結果管理のみに依存する手法をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T16:22:06Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-07-29T09:05:10Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。