論文の概要: StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.11922v1
- Date: Tue, 12 May 2026 10:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.80004
- Title: StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning
- Title(参考訳): StepCodeReasoner: 強化学習によるステップワイズ実行トレースによるコード推論の調整
- Authors: Hao Wang, Rui Li, Lei Sha, Jie M. Zhang,
- Abstract要約: 本稿では,SteepCodeReasonerを提案する。
構造化されたプリントベースの実行トレースアンカーをコードに自動的に挿入することで、モデルは各ステップで実行状態を予測するようにトレーニングされる。
また、コード生成性能も向上し、明示的な実行モデリングがコード推論とコード生成の両方を強化していることを示す。
- 参考スコア(独自算出の注目度): 16.3498616105159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing code reasoning methods primarily supervise final code outputs, ignoring intermediate states, often leading to reward hacking where correct answers are obtained through inconsistent reasoning. We propose StepCodeReasoner, a framework that introduces explicit intermediate execution-state supervision. By automatically inserting structured print-based execution-trace anchors into code, the model is trained to predict runtime states at each step, transforming code reasoning into a verifiable, stepwise execution modeling problem. Building on this execution-aware method, we introduce Bi-Level GRPO, a reinforcement learning algorithm for structured credit assignment at two levels: inter-trajectory, comparing alternative execution paths, and intra-trajectory, rewarding intermediate accuracy based on its impact on downstream correctness. Extensive experiments demonstrate that StepCodeReasoner achieves SOTA performance in code reasoning. In particular, our 7B model achieves 91.1\% on CRUXEval and 86.5\% on LiveCodeBench, outperforming the CodeReasoner-7B baseline (86.0\% and 77.7\%) and GPT-4o (85.6\% and 75.1\%). Furthermore, on the execution-trace benchmark REval, our model scores 82.9\%, outperforming baseline CodeReasoner-7B (72.3\%), its 14B counterpart (81.1\%), and GPT-4o (77.3\%). Additionally, our approach also improves code generation performance, demonstrating that explicit execution modeling enhances both code reasoning and code generation.
- Abstract(参考訳): 既存のコード推論手法は主に最終コード出力を監督し、中間状態を無視する。
本稿では,SteepCodeReasonerを提案する。
構造化されたプリントベースの実行トレースアンカーをコードに自動的に挿入することにより、各ステップのランタイム状態を予測し、コード推論を検証可能な段階的な実行モデリング問題に変換するようにトレーニングされる。
この実行認識手法に基づいて,2段階の信頼割当を行う強化学習アルゴリズムであるBi-Level GRPOを導入する。
大規模な実験では、StepCodeReasonerがコード推論においてSOTAのパフォーマンスを達成している。
特に、我々の7Bモデルは、CRUXEvalで91.1\%、LiveCodeBenchで86.5\%に達し、CodeReasoner-7Bベースライン(86.0\%と77.7\%)とGPT-4o(85.6\%と75.1\%)を上回っている。
さらに、実行トレースベンチマークのRevalでは、82.9\%、ベースラインのCodeReasoner-7B(72.3\%)、14B(81.1\%)、GPT-4o(77.3\%)を上回ります。
さらに、コード生成性能も向上し、明示的な実行モデリングがコード推論とコード生成の両方を強化していることを示す。
関連論文リスト
- Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification [34.98335927187393]
大規模言語モデル(LLM)は可塑性コードを生成することができるが、正確性には限界がある。
本稿では,Lean4における自動コード検証のための階層的証明検索フレームワークを提案する。
Goedel-Code-Prover-8Bは、分解と完了の両方のための単一の統一ポリシーです。
論文 参考訳(メタデータ) (2026-03-18T18:42:04Z) - How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - Chain of Execution Supervision Promotes General Reasoning in Large Language Models [48.100128916029064]
TracePileは260万のサンプルからなる大規模なコーパスで、コード実行を明示的でステップバイステップのチェーン・オブ・シンクスタイルの論理に変換する。
我々は,継続事前訓練,事前訓練後の指導訓練,2段階微調整という3つのトレーニング設定を用いてTracePileを評価する。
特にTracePileは、9つの数学データセットでLLaMA3.1-8Bを平均7.1%向上させ、LiveCodeBench、CRUX、MMLUで明確なゲインを提供する。
論文 参考訳(メタデータ) (2025-10-24T02:21:11Z) - Posterior-GRPO: Rewarding Reasoning Processes in Code Generation [11.474187778340012]
強化学習は大規模言語モデルのコード生成に大きく進歩した。
現在のパラダイムは、中間的推論プロセスの品質を無視して、テストケースから得られる結果に基づく報酬に依存しています。
本稿では,RLにおける推論プロセスの品質を効果的に活用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:04:10Z) - CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning [8.197518276987989]
コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。
それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。
これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。
データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-23T14:26:58Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。