論文の概要: Generating Verifiable CoT from Execution-Traces
- arxiv url: http://arxiv.org/abs/2512.00127v1
- Date: Fri, 28 Nov 2025 07:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.08256
- Title: Generating Verifiable CoT from Execution-Traces
- Title(参考訳): 実行トレースから検証可能なCoTを生成する
- Authors: Shailja Thakur, Vaibhav Saxena, Rohan Kulkarni, Shivdeep Singh, Parameswaran Selvam, Hima Patel, Hiroshi Kanayama,
- Abstract要約: チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは有望だが、現在の総合的なトレーニングデータは重大な弱点に悩まされている。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
この実行基盤のアプローチは、プログラムが真に計算したものを反映するすべての推論ステップを保証する。
- 参考スコア(独自算出の注目度): 6.634229408414094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Teaching language models to reason about code execution remains a fundamental challenge. While Chain-of-Thought (CoT) prompting has shown promise, current synthetic training data suffers from a critical weakness: the reasoning steps are often plausible-sounding explanations generated by teacher models, not verifiable accounts of what the code actually does. This creates a troubling failure mode where models learn to mimic superficially convincing but logically flawed reasoning patterns. We address this by grounding CoT generation directly in program execution traces. Our pipeline instruments code to capture its dynamic behavior, then narrates these verified execution traces into natural language rationales that are correct by construction. This execution-grounded approach ensures every reasoning step reflects what the program genuinely computes, eliminating logical hallucinations at the source. We evaluate our method on code reasoning tasks (forward reasoning on CruxEval and LiveCodeBench-Exec, backward reasoning on CruxEval-Input), as well as code generation and explanation tasks from HumanEval. Models trained on our bi-directional trace-grounded data achieve substantial improvements, with gains of up to 30 points on output prediction and 28 points on input prediction over base models, alongside improved explanation and code generation, demonstrating that verifiable reasoning fundamentally enhances model capabilities. https://github.ibm.com/IBM-Research-AI/Verified-Code-CoT
- Abstract(参考訳): コード実行について推論するために言語モデルを教えることは、依然として根本的な課題である。
CoT(Chain-of-Thought)のプロンプトは将来性を示しているが、現在の合成トレーニングデータは重大な弱点に悩まされている。
これは、モデルが表面的には説得力があるが論理的に欠陥のある推論パターンを模倣することを学ぶという、厄介な失敗モードを生み出します。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
私たちのパイプラインは、その動的な振る舞いを捉え、検証された実行トレースを、構築によって正しい自然言語の論理にナレーションします。
この実行基盤のアプローチにより、すべての推論ステップがプログラムが真に計算したものを反映し、ソースにおける論理的幻覚を排除できる。
我々は、コード推論タスク(CruxEvalとLiveCodeBench-Execの前方推論、CruxEval-Inputの後方推論)と、HumanEvalのコード生成および説明タスクについて評価を行った。
双方向のトレースグラウンドデータに基づいてトレーニングされたモデルは、出力予測で最大30ポイント、ベースモデル上での入力予測で最大28ポイント、説明とコード生成の改善に加えて、検証可能な推論がモデル機能を大幅に向上することを示す。
https://github.ibm.com/IBM-Research-AI/Verified-Code-CoT
関連論文リスト
- Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training [2.62112541805429]
Reasoning Coreは、コア形式ドメイン間で検証可能なシンボリック推論データを手続き的に生成するスケーラブルなスイートである。
各タスクは厳密な検証のための外部解決器と組み合わせられ、カリキュラム設計のための継続的な難易度制御が認められる。
実験によると、Reasoning Coreのデータを事前トレーニングに混ぜることによって、下流の推論が改善され、保存されたり、わずかに改善された言語モデリングの品質が向上する。
論文 参考訳(メタデータ) (2026-03-02T18:59:29Z) - LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation [86.08600027874662]
コード生成のための軽量なロジットレベル制御機構を通じて、チェーン・オブ・シント推論を強化する新しいフレームワークであるLogitsCoderを提案する。
我々はLogitsCoderがより効率的で高品質な推論チェーンを生成することを示し、ベースライン方式に比べてコード生成性能が優れていることを示した。
論文 参考訳(メタデータ) (2026-02-15T08:52:19Z) - Demystifying Errors in LLM Reasoning Traces: An Empirical Study of Code Execution Simulation [7.377446354867118]
大規模言語モデル(LLM)を用いた実行時の振る舞い推定に関する最初の実証的研究を行う。
我々は4つの最先端推論LCMを評価し,9つの推論誤差の分類法を開発した。
計算カテゴリの障害をケーススタディとして,本手法が58%の誤差を補正することを示す。
論文 参考訳(メタデータ) (2025-11-28T21:29:09Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文 参考訳(メタデータ) (2025-03-21T01:00:45Z) - Code-Driven Inductive Synthesis: Enhancing Reasoning Abilities of Large Language Models with Sequences [38.76458756232632]
大規模言語モデルにおける帰納的推論について検討する。
帰納的推論データのソースとして数列を用いる。
シーケンス合成データパイプラインを構築し、トレーニングデータセットCodeSeqを作成します。
論文 参考訳(メタデータ) (2025-03-17T12:33:26Z) - CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction [47.17755403213469]
我々は,文脈的に構築されたコードに埋め込まれた多様な推論パターンを凝縮する新しい手法であるCodeI/Oを提案する。
与えられたコードとテストケースを完全に自然言語で予測するためにモデルをトレーニングすることで、それらを普遍的な推論プリミティブに公開します。
実験の結果、CodeI/Oは記号、科学、論理学、数学と数値、常識推論タスクに一貫した改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-02-11T07:26:50Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。