論文の概要: Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm
- arxiv url: http://arxiv.org/abs/2509.23946v1
- Date: Sun, 28 Sep 2025 15:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.54788
- Title: Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm
- Title(参考訳): Explore-Execute Chain: 効率的な構造推論パラダイムを目指して
- Authors: Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb,
- Abstract要約: Chain-of-Thought(CoT)とその変種は、大規模言語モデル(LLM)の推論能力を著しく向上させた。
E2C$(Explore-Execute Chain)は、推論を2つの異なるフェーズに分離する構造化推論フレームワークである。
- 参考スコア(独自算出の注目度): 8.405729585427226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) and its variants have markedly advanced the reasoning abilities of Large Language Models (LLMs), yet their monolithic and auto-regressive architecture inherently conflates high-level strategic planning with low-level step-by-step execution, leading to computational inefficiency, limited exploration of reasoning paths, and reduced interpretability. To overcome these issues, we propose the Explore-Execute Chain ($E^2C$), a structured reasoning framework that decouples reasoning into two distinct phases: an exploratory phase that stochastically generates succinct high-level plans, followed by an execution phase that deterministically carries out the chosen plan. Our approach incorporates a two-stage training methodology, which combines Supervised Fine-Tuning (SFT) - augmented by a novel data generation algorithm enforcing strict plan adherence - with a subsequent Reinforcement Learning (RL) stage that capitalizes on the informativeness of exploration and reinforces the determinism of execution.This decomposition enables an efficient test-time scaling strategy: on AIME'2024, $E^2C$ Test Time Scaling reaches 58.1% accuracy using <10% of the decoding tokens required by comparable methods (e.g., Forest-of-Thought), sharply cutting self-consistency overhead. For cross-domain adaptation, our Exploration-Focused SFT (EF-SFT) fine-tunes with only 3.5% of the tokens used by standard SFT yet yields up to 14.5% higher accuracy than standard SFT on medical benchmarks, delivering state-of-the-art performance, strong generalization, and greater interpretability by separating planning from execution. The code and pre-trained models for the project are available at: https://github.com/yks23/Explore-Execute-Chain.git
- Abstract(参考訳): CoT(Chain-of-Thought)とその変種は、大規模言語モデル(LLM)の推論能力を大幅に向上させたが、そのモノリシックで自己回帰的なアーキテクチャは本質的に、低レベルなステップバイステップ実行による高レベルな戦略的計画と混同し、計算の非効率化、推論パスの探索の制限、解釈可能性の低下につながっている。
これらの問題を克服するために、探索・実行連鎖(E^2C$)という、推論を2つの異なるフェーズに分離する構造的推論フレームワークを提案し、それは、確率的に簡潔な高レベル計画を生成する探索フェーズと、決定的に選択された計画を実行する実行フェーズである。
提案手法では,厳密な計画順守を図った新しいデータ生成アルゴリズムによって強化された2段階のトレーニング手法と,探索の有意性を生かし,実行の決定性を強化するための強化学習(RL)段階を併用する。この分解により,AIME'2024では,$E^2C$テスト時間スケーリングが,比較手法(例えばフォレスト・オブ・サート)で要求されるデコードトークンの10%を使用すれば,58.1%の精度で,効率的なテスト時間スケーリング戦略が実現される。
クロスドメイン適応では、標準SFTが使用するトークンの3.5%しか持たないExploration-Focused SFT(EF-SFT)ファインチューニングが、医療ベンチマークの標準SFTよりも14.5%高い精度で実現され、最先端のパフォーマンス、強力な一般化、実行計画の分離による解釈可能性の向上を実現している。
プロジェクトのコードと事前トレーニングされたモデルは、以下の通りである。
関連論文リスト
- EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。
マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-17T03:38:19Z) - A*-Decoding: Token-Efficient Inference Scaling [0.0]
推論時間スケーリングは、言語モデルのパフォーマンスを改善するためのパラメータスケーリングの強力な代替手段として登場した。
A*-decoding(A*-decoding)は、A*検索アルゴリズムに基づいて、固定された計算予算を最適に活用する検索ベースの推論時戦略である。
我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。
論文 参考訳(メタデータ) (2025-05-19T19:19:48Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。