論文の概要: The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning
- arxiv url: http://arxiv.org/abs/2604.06427v1
- Date: Tue, 07 Apr 2026 20:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.224642
- Title: The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning
- Title(参考訳): 深層シーリング:潜在計画の発見における大規模言語モデルの限界について
- Authors: Yi Xu, Philipp Jettkant, Laura Ruis,
- Abstract要約: モデルが中間段階の監督なしに多段階計画戦略を発見できるかどうかを検討した。
必要な遅延計画手順の数を正確に制御するグラフパスフィニングタスクを使用して、顕著な制限を明らかにする。
トレーニング中に学習できる最大潜伏計画深度モデルは5つだが、発見された戦略はテスト時に最大8つの潜伏ステップを一般化する。
- 参考スコア(独自算出の注目度): 6.154622986292556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.
- Abstract(参考訳): チェーン・オブ・シンクレット(CoT)モニタリングの生存可能性は、潜在表現において効果的に推論できないモデルに対するヒンジである。
しかし、LSMにおけるそのような潜在的推論の限界についてはほとんど分かっていない。
モデルが中間段階を監督せずに多段階計画戦略を発見できるかどうかを検証し,その限界を1回の前方通過で実行することによって検証する。
例えば、スクラッチから訓練された小さなトランスフォーマーは、最大3つの遅延ステップを必要とするスクラッチ発見戦略から訓練され、微調整されたGPT-4oとQwen3-32Bは5に到達し、GPT-5.4は数発のプロンプトを7つ達成した。
トレーニング中に学習できる最大潜伏計画深度モデルは5つだが、発見された戦略はテスト時に最大8つの潜伏ステップを一般化する。
このことは、最終回答監視単独で潜伏戦略を発見する能力と、それが一度発見されたときに実行する能力との解離を明らかにしている。
同様の制限がより広範に保持されている場合、複数の調整された遅延計画手順を必要とする戦略は、CoT監視に信頼を貸すために、明示的に教えるか外部化する必要があるかもしれない。
関連論文リスト
- Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents [49.119608399413806]
大規模言語モデル(LLM)は、多ターン意思決定タスクのための自律エージェントとして、ますます多くデプロイされている。
本稿では,エージェントが各ステップで認知深度を動的に適応するように訓練するフレームワークであるCogを紹介する。
ALFWorldとScienceWorldの実験では、Cogは最先端のパフォーマンスを優れた効率で達成している。
論文 参考訳(メタデータ) (2026-02-13T06:52:09Z) - No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文 参考訳(メタデータ) (2026-02-02T13:46:56Z) - Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文 参考訳(メタデータ) (2025-10-13T17:02:41Z) - Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。
本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。
本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文 参考訳(メタデータ) (2025-03-03T15:20:41Z) - Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。
本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。
LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-12-31T02:53:27Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。
提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。
フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:12:56Z) - A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models [15.874604623294427]
マルチパス計画問題には、アウトライン、情報収集、計画といった複数の相互接続ステージが含まれる。
既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。
本研究は,LLMエージェントのためのヒューマンライクな計画フレームワークを開発することで,この問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-05-28T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。