論文の概要: ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning
- arxiv url: http://arxiv.org/abs/2603.11226v1
- Date: Wed, 11 Mar 2026 18:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.593866
- Title: ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning
- Title(参考訳): ExecVerify: コード実行推論のステップワイドリワードを検証可能なWhite-Box RL
- Authors: Lingxiao Tang, He Ye, Zhaoyang Chu, Muyang Ye, Zhongxin Liu, Xiaoxue Ren, Lingfeng Bao,
- Abstract要約: ExecVerifyは、実行トレースから得られた検証済みのホワイトボックス報酬を組み込むことで、テキストの模倣を越えている。
ExecVerifyでトレーニングされた7Bモデルは、コード推論ベンチマークで32Bモデルに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.137158235106941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code LLMs still struggle with code execution reasoning, especially in smaller models. Existing methods rely on supervised fine-tuning (SFT) with teacher-generated explanations, primarily in two forms: (1) input-output (I/O) prediction chains and (2) natural-language descriptions of execution traces. However, intermediate execution steps cannot be explicitly verified during SFT, so the training objective can reduce to merely matching teacher explanations. Moreover, training data is typically collected without explicit control over task difficulty. We introduce ExecVerify, which goes beyond text imitation by incorporating verifiable white-box rewards derived from execution traces, including next-statement prediction and variable value/type prediction. Our work first builds a dataset with multiple difficulty levels via constraint-based program synthesis. Then, we apply reinforcement learning (RL) to reward correct answers about both intermediate execution steps and final outputs, aligning the training objective with semantic correctness at each execution step. Finally, we adopt a two-stage training pipeline that first enhances execution reasoning and then transfers to code generation. Experiments demonstrate that a 7B model trained with ExecVerify achieves performance comparable to 32B models on code reasoning benchmarks and improves pass@1 by up to 5.9\% on code generation tasks over strong post-training baselines.
- Abstract(参考訳): コードLLMは、特に小さなモデルでは、コード実行の推論に苦戦している。
既存の手法は教師が生成した説明を伴う教師付き微調整(SFT)に依存しており、主に(1)入力出力(I/O)予測チェーンと(2)実行トレースの自然言語記述である。
しかし、SFT中に中間実行ステップを明示的に検証することはできないため、学習目標が単に一致する教師の説明に還元される可能性がある。
さらに、トレーニングデータは通常、タスクの難易度を明示的に制御することなく収集される。
ExecVerifyは,実行トレースから得られた検証可能なホワイトボックス報酬を組み込むことで,テキストの模倣を越えて,次のステートメント予測や変数値/型予測などを導入する。
私たちの研究はまず、制約ベースのプログラム合成によって、複数の困難レベルを持つデータセットを構築します。
次に、中間実行ステップと最終出力の両方に関する正解を正解するために強化学習(RL)を適用し、各実行ステップにおけるトレーニング目標と意味的正解を一致させる。
最後に、まず実行推論を強化し、次にコード生成に転送する2段階のトレーニングパイプラインを採用しています。
ExecVerifyでトレーニングされた7Bモデルは、コード推論ベンチマークで32Bモデルに匹敵するパフォーマンスを実現し、トレーニング後の強力なベースラインよりも、コード生成タスクで最大5.9倍のパス@1を改善している。
関連論文リスト
- Generating Verifiable CoT from Execution-Traces [6.634229408414094]
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは有望だが、現在の総合的なトレーニングデータは重大な弱点に悩まされている。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
この実行基盤のアプローチは、プログラムが真に計算したものを反映するすべての推論ステップを保証する。
論文 参考訳(メタデータ) (2025-11-28T07:43:43Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - CodeBoost: Boosting Code LLMs by Squeezing Knowledge from Code Snippets with RL [28.43882967593511]
コード大言語モデル(LLM)は、効率的で自動化されたコーディングパイプラインを構築するのに欠かせないツールになっている。
既存のモデルは、「ヒューマンインストラクション-ファイナル応答」ペアを用いて汎用LLMから強化学習(RL)を用いて後訓練されるのが一般的である。
我々は,コードスニペットからLLMを純粋に拡張するフレームワークであるCodeBoostを提案する。
論文 参考訳(メタデータ) (2025-08-07T10:31:24Z) - CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning [8.197518276987989]
コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。
それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。
これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。
データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-23T14:26:58Z) - What I cannot execute, I do not understand: Training and Evaluating LLMs on Program Execution Traces [27.090845930270486]
本研究では,実世界のプログラム実行トレースを明示的にモデル化する訓練手順であるExecution Tuning(E.T.)について検討する。
我々は,異なる実行トレースの粒度(ラインレベルと命令レベル)のモデルと,出力予測のタスクに関する戦略を訓練し,評価する。
論文 参考訳(メタデータ) (2025-02-10T14:42:13Z) - Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension [18.919972400933393]
我々は、先進的な事前訓練タスク「Next Token Prediction+」を提案する。
この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderの両方が、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T03:11:07Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。