論文の概要: Generating Verifiable CoT from Execution-Traces
- arxiv url: http://arxiv.org/abs/2512.00127v1
- Date: Fri, 28 Nov 2025 07:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.08256
- Title: Generating Verifiable CoT from Execution-Traces
- Title(参考訳): 実行トレースから検証可能なCoTを生成する
- Authors: Shailja Thakur, Vaibhav Saxena, Rohan Kulkarni, Shivdeep Singh, Parameswaran Selvam, Hima Patel, Hiroshi Kanayama,
- Abstract要約: チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは有望だが、現在の総合的なトレーニングデータは重大な弱点に悩まされている。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
この実行基盤のアプローチは、プログラムが真に計算したものを反映するすべての推論ステップを保証する。
- 参考スコア(独自算出の注目度): 6.634229408414094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Teaching language models to reason about code execution remains a fundamental challenge. While Chain-of-Thought (CoT) prompting has shown promise, current synthetic training data suffers from a critical weakness: the reasoning steps are often plausible-sounding explanations generated by teacher models, not verifiable accounts of what the code actually does. This creates a troubling failure mode where models learn to mimic superficially convincing but logically flawed reasoning patterns. We address this by grounding CoT generation directly in program execution traces. Our pipeline instruments code to capture its dynamic behavior, then narrates these verified execution traces into natural language rationales that are correct by construction. This execution-grounded approach ensures every reasoning step reflects what the program genuinely computes, eliminating logical hallucinations at the source. We evaluate our method on code reasoning tasks (forward reasoning on CruxEval and LiveCodeBench-Exec, backward reasoning on CruxEval-Input), as well as code generation and explanation tasks from HumanEval. Models trained on our bi-directional trace-grounded data achieve substantial improvements, with gains of up to 30 points on output prediction and 28 points on input prediction over base models, alongside improved explanation and code generation, demonstrating that verifiable reasoning fundamentally enhances model capabilities. https://github.ibm.com/IBM-Research-AI/Verified-Code-CoT
- Abstract(参考訳): コード実行について推論するために言語モデルを教えることは、依然として根本的な課題である。
CoT(Chain-of-Thought)のプロンプトは将来性を示しているが、現在の合成トレーニングデータは重大な弱点に悩まされている。
これは、モデルが表面的には説得力があるが論理的に欠陥のある推論パターンを模倣することを学ぶという、厄介な失敗モードを生み出します。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
私たちのパイプラインは、その動的な振る舞いを捉え、検証された実行トレースを、構築によって正しい自然言語の論理にナレーションします。
この実行基盤のアプローチにより、すべての推論ステップがプログラムが真に計算したものを反映し、ソースにおける論理的幻覚を排除できる。
我々は、コード推論タスク(CruxEvalとLiveCodeBench-Execの前方推論、CruxEval-Inputの後方推論)と、HumanEvalのコード生成および説明タスクについて評価を行った。
双方向のトレースグラウンドデータに基づいてトレーニングされたモデルは、出力予測で最大30ポイント、ベースモデル上での入力予測で最大28ポイント、説明とコード生成の改善に加えて、検証可能な推論がモデル機能を大幅に向上することを示す。
https://github.ibm.com/IBM-Research-AI/Verified-Code-CoT
関連論文リスト
- On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文 参考訳(メタデータ) (2025-03-21T01:00:45Z) - CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction [47.17755403213469]
我々は,文脈的に構築されたコードに埋め込まれた多様な推論パターンを凝縮する新しい手法であるCodeI/Oを提案する。
与えられたコードとテストケースを完全に自然言語で予測するためにモデルをトレーニングすることで、それらを普遍的な推論プリミティブに公開します。
実験の結果、CodeI/Oは記号、科学、論理学、数学と数値、常識推論タスクに一貫した改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-02-11T07:26:50Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。