論文の概要: Chain of Execution Supervision Promotes General Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.23629v1
- Date: Fri, 24 Oct 2025 02:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.296305
- Title: Chain of Execution Supervision Promotes General Reasoning in Large Language Models
- Title(参考訳): 実行スーパービジョンの連鎖は大規模言語モデルにおける一般的な推論を促進する
- Authors: Nuo Chen, Zehua Li, Keqin Bao, Junyang Lin, Dayiheng Liu,
- Abstract要約: TracePileは260万のサンプルからなる大規模なコーパスで、コード実行を明示的でステップバイステップのチェーン・オブ・シンクスタイルの論理に変換する。
我々は,継続事前訓練,事前訓練後の指導訓練,2段階微調整という3つのトレーニング設定を用いてTracePileを評価する。
特にTracePileは、9つの数学データセットでLLaMA3.1-8Bを平均7.1%向上させ、LiveCodeBench、CRUX、MMLUで明確なゲインを提供する。
- 参考スコア(独自算出の注目度): 48.100128916029064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building robust and general reasoning ability is a central goal in the development of large language models (LLMs). Recent efforts increasingly turn to code as a rich training source, given its inherent logical structure and diverse reasoning paradigms such as divide-and-conquer, topological ordering, and enumeration. However, reasoning in code is often expressed implicitly and entangled with syntactic or implementation noise, making direct training on raw code suboptimal.To address this, we introduce TracePile, a large-scale corpus of 2.6 million samples that transforms code execution into explicit, step-by-step chain-of-thought-style rationales, which we call Chain of Execution (CoE). The corpus spans domains including mathematics, classical algorithms and algorithmic competition, and is enriched with variable-tracing questions and code rewritings to enhance logical granularity and code diversity. We evaluate TracePile using three training setups: continue-pretraining, instruction tuning after pretraining, and two-stage finetuning. Experiments across four base models (LLaMA 3, LLaMA 3.1, Qwen-2.5, and Qwen-2.5 Coder) and 20 benchmarks covering math, code, logic, and algorithms demonstrate consistent improvements. Notably, TracePile boosts LLaMA3.1-8B by 7.1\% on average across nine math datasets and delivers clear gains on LiveCodeBench, CRUX, and MMLU under two-stage fine-tuning.
- Abstract(参考訳): 堅牢で一般的な推論能力の構築は、大規模言語モデル(LLM)の開発における中心的な目標である。
近年の取り組みは、その固有の論理構造と、分割とコンカヤ、トポロジカルな順序付け、列挙といった多様な推論パラダイムを考えると、リッチなトレーニングソースとしてコードに変わりつつある。
しかし、コード内の推論は暗黙的に表現され、構文や実装のノイズで絡まっており、生のコードで直接訓練される。これに対処するために、コード実行を明示的でステップバイステップのチェーン・オブ・シークレットな論理に変換する260万のサンプルからなる大規模なコーパスであるTracePileを紹介します。
コーパスは、数学、古典的アルゴリズム、アルゴリズムの競争を含む領域にまたがっており、論理的な粒度とコードの多様性を高めるために、変数追跡の質問やコード書き換えが豊富である。
我々は,継続事前訓練,事前訓練後の指導訓練,2段階微調整という3つのトレーニング設定を用いてTracePileを評価する。
4つのベースモデル(LLaMA 3, LLaMA 3.1, Qwen-2.5, Qwen-2.5 Coder)と数学、コード、ロジック、アルゴリズムをカバーする20のベンチマークによる実験は、一貫した改善を示している。
特にTracePileは、9つの数学データセットで平均7.1\%のLLaMA3.1-8Bを向上し、2段階の微調整の下でLiveCodeBench、CRUX、MMLUで明確なゲインを提供する。
関連論文リスト
- Lifecycle-Aware code generation: Leveraging Software Engineering Phases in LLMs [12.70863561286374]
トレーニング段階と推論段階の両方に中間アーティファクトを組み込んだライフサイクル対応フレームワークを導入する。
実験によると、ライフサイクルレベルの微調整は、微調整の前に同じモデルで最大75%の精度でコードの正しさを向上させる。
オープンソース LLM は、かつて私たちのフレームワークの下で微調整され、コードで事前訓練されたモデルにマッチするか、わずかに優れています。
論文 参考訳(メタデータ) (2025-10-28T02:54:02Z) - Code-enabled language models can outperform reasoning models on diverse tasks [86.29363856881399]
標準命令LMは, 微調整をせずに, 強力な推論器となりうることを示す。
これはCodeAdaptによって実現され、LMは多段階的なコード実行と自然言語推論をインターリーブする。
CodeAdaptは、平均8タスクで、3つのLMが対応するRMを上回ります。
論文 参考訳(メタデータ) (2025-10-23T18:04:03Z) - CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment [98.87395842351627]
大きな言語モデル(LLM)は、巨大なコードコーパスから学習することで、コード生成において優れています。
テキストパターンのトレーニングと機能的正しさの目標の間には、基本的な意味的ギャップが残っている。
我々は、コード生成のためのRLVRトレーニングパイプラインに実行セマンティクスアライメントを統合する新しいアプローチであるCodeRL+を提案する。
論文 参考訳(メタデータ) (2025-10-21T09:48:06Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。