論文の概要: On the Limits of Innate Planning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.21591v1
- Date: Wed, 26 Nov 2025 17:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.213733
- Title: On the Limits of Innate Planning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける自然計画の限界について
- Authors: Charles Schepanowski, Charles Ling,
- Abstract要約: 大規模言語モデル(LLM)は多くのベンチマークで印象的な結果を得るが、計画とステートフルな推論の能力は未だに不明である。
コード実行や他のツールを使わずに、これらの能力を直接研究し、8-puzzleというステートトラッキングとゴール指向の計画を必要とする古典的なタスクを使います。
- 参考スコア(独自算出の注目度): 13.604285158704466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve impressive results on many benchmarks, yet their capacity for planning and stateful reasoning remains unclear. We study these abilities directly, without code execution or other tools, using the 8-puzzle: a classic task that requires state tracking and goal-directed planning while allowing precise, step-by-step evaluation. Four models are tested under common prompting conditions (Zero-Shot, Chain-of-Thought, Algorithm-of-Thought) and with tiered corrective feedback. Feedback improves success rates for some model-prompt combinations, but many successful runs are long, computationally expensive, and indirect. We then examine the models with an external move validator that provides only valid moves. Despite this level of assistance, none of the models solve any puzzles in this setting. Qualitative analysis reveals two dominant deficits across all models: (1) brittle internal state representations, leading to frequent invalid moves, and (2) weak heuristic planning, with models entering loops or selecting actions that do not reduce the distance to the goal state. These findings indicate that, in the absence of external tools such as code interpreters, current LLMs have substantial limitations in planning and that further progress may require mechanisms for maintaining explicit state and performing structured search.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのベンチマークで印象的な結果を得るが、計画とステートフルな推論の能力は未だに不明である。
コード実行や他のツールを使わずに、これらの能力を直接研究する。8-puzzleは、状態追跡とゴール指向の計画を必要とする古典的なタスクであり、正確なステップバイステップの評価を可能にする。
一般的なプロンプト条件 (Zero-Shot, Chain-of-Thought, Algorithm-of-Thought) の下で4つのモデルがテストされ, 相関した修正フィードバックが得られた。
フィードバックはいくつかのモデルとプロンプトの組み合わせの成功率を改善するが、多くの成功した実行は長く、計算コストが高く、間接的である。
次に、有効な動作のみを提供する外部移動検証器を用いてモデルを検証する。
このレベルの支援にもかかわらず、どのモデルもこの設定でどのパズルも解けない。
定性的分析は、(1)内部状態表現の脆さ、頻繁な不正な動きにつながること、(2)モデルがループに入るか、目標状態までの距離を減らさないアクションを選択するという、弱いヒューリスティック計画の2つの主要な欠点を明らかにしている。
これらの結果から,コードインタプリタなどの外部ツールがなければ,現在のLLMは計画にかなりの制限があり,さらに進行には明示的な状態を維持し,構造化された検索を行うメカニズムが必要である可能性が示唆された。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。