論文の概要: Detecting and Characterizing Planning in Language Models
- arxiv url: http://arxiv.org/abs/2508.18098v1
- Date: Mon, 25 Aug 2025 14:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.831346
- Title: Detecting and Characterizing Planning in Language Models
- Title(参考訳): 言語モデルにおける計画の検出と特徴付け
- Authors: Jatin Nainani, Sankaran Vaidyanathan, Connor Watts, Andre N. Assis, Alice Rigg,
- Abstract要約: 本稿では,半自動アノテーションパイプラインとして計画および運用を行うための形式的かつ因果的基準を提案する。
このパイプラインを,MBPPコード生成ベンチマークと詩生成タスク上で,ベースおよび命令調整されたGemma-2-2Bモデルに適用する。
Gemma-2-2B は即興で同じ詩生成タスクを解くが,MBPP では同様のタスクにまたがって計画と即興を切り替え,さらに連続したトークン予測も行う。
- 参考スコア(独自算出の注目度): 1.320426480090921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) have demonstrated impressive performance across a wide range of multi-step reasoning tasks. Recent work suggests that LLMs may perform planning - selecting a future target token in advance and generating intermediate tokens that lead towards it - rather than merely improvising one token at a time. However, existing studies assume fixed planning horizons and often focus on single prompts or narrow domains. To distinguish planning from improvisation across models and tasks, we present formal and causally grounded criteria for detecting planning and operationalize them as a semi-automated annotation pipeline. We apply this pipeline to both base and instruction-tuned Gemma-2-2B models on the MBPP code generation benchmark and a poem generation task where Claude 3.5 Haiku was previously shown to plan. Our findings show that planning is not universal: unlike Haiku, Gemma-2-2B solves the same poem generation task through improvisation, and on MBPP it switches between planning and improvisation across similar tasks and even successive token predictions. We further show that instruction tuning refines existing planning behaviors in the base model rather than creating them from scratch. Together, these studies provide a reproducible and scalable foundation for mechanistic studies of planning in LLMs.
- Abstract(参考訳): 現代の大規模言語モデル (LLM) は、幅広い多段階推論タスクにおいて印象的な性能を示している。
最近の研究は、LCMが計画を実行する可能性を示唆している - 先進的なターゲットトークンを事前に選択し、それにつながる中間トークンを生成する - 一度に1つのトークンを即興するだけではない。
しかし、既存の研究では、固定された計画の地平線を仮定し、しばしば単一のプロンプトや狭い領域に焦点を当てている。
モデルおよびタスク間での即興的な計画と区別するために、計画を検出し、半自動アノテーションパイプラインとして運用するための形式的かつ因果的な基準を示す。
このパイプラインを,MBPPコード生成ベンチマークとClaude 3.5 Haikuが以前計画していた詩生成タスク上で,ベースモデルと命令指定Gemma-2-2Bモデルの両方に適用する。
Gemma-2-2B は即興で同じ詩生成タスクを解くが,MBPP では同様のタスクにまたがって計画と即興を切り替え,さらに連続したトークン予測も行う。
さらに、命令チューニングは、スクラッチから作成するのではなく、ベースモデルの既存の計画動作を洗練させることを示す。
これらの研究は、LLMにおける計画の機械的研究のための再現可能でスケーラブルな基礎を提供する。
関連論文リスト
- Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。
これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。
本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文 参考訳(メタデータ) (2025-07-31T14:25:54Z) - LLMs as Planning Modelers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models [24.230622369142193]
大規模言語モデル(LLM)は様々な自然言語処理に優れるが、長い水平計画問題に悩まされることが多い。
この制限は、自動計画(AP)と自然言語処理(NLP)コミュニティにニューロシンボリックアプローチを統合することに関心を寄せている。
論文 参考訳(メタデータ) (2025-03-22T03:35:44Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Learning to Plan and Generate Text with Citations [69.56850173097116]
提案手法は, テキストの忠実性, 接地性, 制御性を向上させるために最近実証されたプランベースモデルの帰属性について検討する。
本稿では,異なるブループリントの変種を利用する帰属モデルと,質問をゼロから生成する抽象モデルと,質問を入力からコピーする抽出モデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T11:27:54Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。