論文の概要: Why Reasoning Fails to Plan: A Planning-Centric Analysis of Long-Horizon Decision Making in LLM Agents
- arxiv url: http://arxiv.org/abs/2601.22311v1
- Date: Thu, 29 Jan 2026 20:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.057744
- Title: Why Reasoning Fails to Plan: A Planning-Centric Analysis of Long-Horizon Decision Making in LLM Agents
- Title(参考訳): 推論が計画に失敗する理由:LLMエージェントにおける長軸決定の計画・中心的分析
- Authors: Zehong Wang, Fang Wu, Hongru Wang, Xiangru Tang, Bolian Li, Zhenfei Yin, Yijun Ma, Yiyang Li, Weixiang Sun, Xiusi Chen, Yanfang Ye,
- Abstract要約: 大規模言語モデル(LLM)に基づくエージェントは、短い地平線上でのステップバイステップ推論能力を示すが、長い計画地平線上でのコヒーレントな振舞いを維持できないことが多い。
我々は、ステップワイズ推論は、短い地平線に適しているが、長期計画では失敗するステップワイズ欲求政策の形式を誘導すると主張する。
我々は、FLAREを将来の計画の最小限のインスタンス化として導入し、明示的なルックアヘッド、価値伝播、限定的なコミットメントを1つのモデルで実施する。
- 参考スコア(独自算出の注目度): 42.09897801169138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents exhibit strong step-by-step reasoning capabilities over short horizons, yet often fail to sustain coherent behavior over long planning horizons. We argue that this failure reflects a fundamental mismatch: step-wise reasoning induces a form of step-wise greedy policy that is adequate for short horizons but fails in long-horizon planning, where early actions must account for delayed consequences. From this planning-centric perspective, we study LLM-based agents in deterministic, fully structured environments with explicit state transitions and evaluation signals. Our analysis reveals a core failure mode of reasoning-based policies: locally optimal choices induced by step-wise scoring lead to early myopic commitments that are systematically amplified over time and difficult to recover from. We introduce FLARE (Future-aware Lookahead with Reward Estimation) as a minimal instantiation of future-aware planning to enforce explicit lookahead, value propagation, and limited commitment in a single model, allowing downstream outcomes to influence early decisions. Across multiple benchmarks, agent frameworks, and LLM backbones, FLARE consistently improves task performance and planning-level behavior, frequently allowing LLaMA-8B with FLARE to outperform GPT-4o with standard step-by-step reasoning. These results establish a clear distinction between reasoning and planning.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントは、短い地平線上でのステップバイステップ推論能力を示すが、長い計画地平線上でのコヒーレントな振舞いを維持できないことが多い。
我々は、この失敗が根本的なミスマッチを反映していると主張する: ステップワイズ推論は、短い地平線に適しているが、早期の行動が遅延した結果を考慮しなければならない長期計画において失敗するステップワイズ欲求政策の形式を誘導する。
この計画中心の観点から, LLMをベースとしたエージェントを, 明確な状態遷移と評価信号を持つ決定論的, 完全に構造化された環境で研究する。
段階的スコアリングによって引き起こされる局所的最適選択は、時間とともに体系的に増幅され、回復し難い早期の筋力的コミットメントにつながる。
我々は,FLARE (Future-aware Lookahead with Reward Estimation) を導入し,FLARE (Future-aware Lookahead with Reward Estimation) を1つのモデルに明示的なルックアヘッド,価値伝搬,限定的なコミットメントを強制する将来の計画の最小限のインスタンス化を行い,下流の結果が早期決定に影響を与えることを可能にした。
複数のベンチマーク、エージェントフレームワーク、LLMバックボーンを通じて、FLAREはタスクパフォーマンスと計画レベルの振る舞いを一貫して改善し、FLAREとLLaMA-8Bは標準的なステップバイステップの推論でGPT-4oを上回った。
これらの結果は、推論と計画を明確に区別する。
関連論文リスト
- SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models [6.718614728570862]
本研究では,大規模言語モデルの計画的,長期的推論能力を体系的に評価する。
本稿では,ソコバンパズルに基づく新しいベンチマークを提案する。
以上の結果から,25以上の移動が必要な場合,計画性能が一貫した劣化がみられた。
論文 参考訳(メタデータ) (2026-01-28T18:56:00Z) - PPA-Plan: Proactive Pitfall Avoidance for Reliable Planning in Long-Context LLM Reasoning [8.87747076871578]
大規模言語モデル(LLM)は、関連する情報がわずかに分散されている長いコンテキストに対する推論に苦慮する。
PPA-Plan(PPA-Plan)は、長期コンテキスト推論のためのプロアクティブな計画戦略であり、計画生成前の障害防止に重点を置いている。
長期コンテキストQAベンチマークの実験では、PPA-Planが生成したプランの実行は、既存のプラン・アンド・エグゼクティブメソッドと直接プロンプトを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T04:48:36Z) - Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文 参考訳(メタデータ) (2025-10-13T17:02:41Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。