論文の概要: Large Language Models Can Take False First Steps at Inference-time Planning
- arxiv url: http://arxiv.org/abs/2602.02991v1
- Date: Tue, 03 Feb 2026 01:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.186185
- Title: Large Language Models Can Take False First Steps at Inference-time Planning
- Title(参考訳): 大規模言語モデルは推論時計画において最初の一歩を踏み出すことができる
- Authors: Haijiang Yan, Jian-Qiao Zhu, Adam Sanborn,
- Abstract要約: 大規模言語モデル(LLM)は、訓練中にシーケンスレベルの計画能力を取得することが示されている。
推論時に現れる平面行動は、しばしば近視眼的であり、これらの能力と矛盾しない。
進化する生成的文脈における計画行動に基づいて,このギャップのベイズ的説明を提案する。
- 参考スコア(独自算出の注目度): 2.6100783621884625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to acquire sequence-level planning abilities during training, yet their planning behavior exhibited at inference time often appears short-sighted and inconsistent with these capabilities. We propose a Bayesian account for this gap by grounding planning behavior in the evolving generative context: given the subtle differences between natural language and the language internalized by LLMs, accumulated self-generated context drives a planning-shift during inference and thereby creates the appearance of compromised planning behavior. We further validate the proposed model through two controlled experiments: a random-generation task demonstrating constrained planning under human prompts and increasing planning strength as self-generated context accumulates, and a Gaussian-sampling task showing reduced initial bias when conditioning on self-generated sequences. These findings provide a theoretical explanation along with empirical evidence for characterizing how LLMs plan ahead during inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練中にシーケンスレベルの計画能力を取得することが示されているが、推論時に示される計画行動はしばしば、これらの能力と短目で矛盾するように見える。
本研究では,LLMが内在する言語と自然言語との微妙な違いを考慮し,推論中に自己生成コンテキストを蓄積することにより,予測中にプランニングシフトを駆動し,妥協された計画行動の出現を創出する,という,進化する生成文脈におけるプランニング行動の基盤化によるこのギャップに対するベイズ的説明を提案する。
提案手法は,人間のプロンプト下での制約された計画を示すランダム生成タスクと,自己生成コンテキストの蓄積に伴う計画強度の向上と,自己生成シーケンスの条件付け時の初期バイアスの低減を示すガウスサンプリングタスクの2つの制御された実験により検証される。
これらの知見は、LLMが推論中にどのように計画を進めるかを示す経験的証拠とともに理論的に説明できる。
関連論文リスト
- iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning [28.763018368302117]
大規模言語モデル(LLM)は、問題解決において、信頼性の高いステップバイステップ推論を行うことができる。
幻覚が原因で 正確な 効果的なテキストプランを作成することは 困難です
LLMが適応的に潜在計画を生成するための新しいフレームワークiCLPを提案する。
論文 参考訳(メタデータ) (2025-12-30T06:19:04Z) - Detecting and Characterizing Planning in Language Models [1.320426480090921]
本稿では,半自動アノテーションパイプラインとして計画および運用を行うための形式的かつ因果的基準を提案する。
このパイプラインを,MBPPコード生成ベンチマークと詩生成タスク上で,ベースおよび命令調整されたGemma-2-2Bモデルに適用する。
Gemma-2-2B は即興で同じ詩生成タスクを解くが,MBPP では同様のタスクにまたがって計画と即興を切り替え,さらに連続したトークン予測も行う。
論文 参考訳(メタデータ) (2025-08-25T14:59:46Z) - Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。
これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。
本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文 参考訳(メタデータ) (2025-07-31T14:25:54Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - PDPP: Projected Diffusion for Procedure Planning in Instructional Videos [18.984980596601513]
本研究では,現在の視覚的観察と目的を考慮に入れた計画(一連の行動)の実現を目的とした指導ビデオにおけるプロシージャ計画の課題について検討する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を監督として活用した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。