論文の概要: Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning
- arxiv url: http://arxiv.org/abs/2509.13351v1
- Date: Sun, 14 Sep 2025 02:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.548028
- Title: Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning
- Title(参考訳): LLMの計画指導:シンボリック・プランニングのための論理的チェーン・オブ・ソート・インストラクション・チューニング
- Authors: Pulkit Verma, Ngoc La, Anthony Favier, Swaroop Mishra, Julie A. Shah,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。
論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
- 参考スコア(独自算出の注目度): 23.185497225384207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, yet their ability to perform structured symbolic planning remains limited, particularly in domains requiring formal representations like the Planning Domain Definition Language (PDDL). In this paper, we present a novel instruction tuning framework, PDDL-Instruct, designed to enhance LLMs' symbolic planning capabilities through logical chain-of-thought reasoning. Our approach focuses on teaching models to rigorously reason about action applicability, state transitions, and plan validity using explicit logical inference steps. By developing instruction prompts that guide models through the precise logical reasoning required to determine when actions can be applied in a given state, we enable LLMs to self-correct their planning processes through structured reflection. The framework systematically builds verification skills by decomposing the planning process into explicit reasoning chains about precondition satisfaction, effect application, and invariant preservation. Experimental results on multiple planning domains show that our chain-of-thought reasoning based instruction-tuned models are significantly better at planning, achieving planning accuracy of up to 94% on standard benchmarks, representing a 66% absolute improvement over baseline models. This work bridges the gap between the general reasoning capabilities of LLMs and the logical precision required for automated planning, offering a promising direction for developing better AI planning systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化された象徴的計画を実行する能力は、特にプランニングドメイン定義言語(PDDL)のような形式的な表現を必要とするドメインにおいて制限されている。
本稿では,LLMの論理的チェーン・オブ・シークレット推論によるシンボリックプランニング能力の向上を目的とした,新しいインストラクションチューニングフレームワークPDDL-Instructを提案する。
我々のアプローチは、明示的な論理的推論ステップを用いて、アクション適用性、状態遷移、計画妥当性について厳格に推論するモデルを教えることに焦点を当てている。
与えられた状態にいつアクションを適用できるかを決定するのに必要な正確な論理的推論を通じてモデルを導出する命令プロンプトを開発することにより、LLMは構造化されたリフレクションを通して計画プロセスの自己修正を可能にする。
このフレームワークは、事前条件満足度、効果応用、不変保存に関する明確な推論チェーンに計画プロセスを分解することで、検証スキルを体系的に構築する。
複数の計画領域での実験結果から,我々のチェーン・オブ・ソート・ベース・インストラクション・チューニング・モデルは,標準ベンチマークで最大94%の計画精度を達成し,ベースラインモデルに対して66%の絶対的改善を達成している。
この作業は、LLMの一般的な推論能力と自動計画に必要な論理的精度のギャップを埋め、より良いAI計画システムを開発するための有望な方向を提供する。
関連論文リスト
- Think Small, Plan Smart: Minimalist Symbolic Abstraction and Heuristic Subspace Search for LLM-Guided Task Planning [19.421916137269275]
大規模言語モデル(LLM)は、複雑で曖昧な自然言語命令を実行可能な計画に変換するための有望なインターフェースを提供する。
最近のフレームワークは、まずアクションモデル(Planning Domain Definition Language)を生成し、次に検索を適用することで、LCMとシンボリックプランナーを組み合わせる。
抽象的シンボル表現とメタヒューリスティックな部分空間探索を並列かつ反復的に統合する2段階のLLMシンボリック計画フレームワークPLAHXを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:33:22Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。