論文の概要: Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation
- arxiv url: http://arxiv.org/abs/2603.06064v1
- Date: Fri, 06 Mar 2026 09:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.482479
- Title: Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation
- Title(参考訳): ステップワイズPDDLシミュレーションによるエージェントLDM計画:経験的特徴化
- Authors: Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück,
- Abstract要約: 大型言語モデル(LLM)は、古典的なシンボリックな手法と共に実行可能なプランナーとして機能する。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineを紹介する。
102国際計画コンペティション(IPC)Blocksworldインスタンスに対して,一様180秒の予算で4つのアプローチを評価する。
- 参考スコア(独自算出の注目度): 1.2832858109291982
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Task planning, the problem of sequencing actions to reach a goal from an initial state, is a core capability requirement for autonomous robotic systems. Whether large language models (LLMs) can serve as viable planners alongside classical symbolic methods remains an open question. We present PyPDDLEngine, an open-source Planning Domain Definition Language (PDDL) simulation engine that exposes planning operations as LLM tool calls through a Model Context Protocol (MCP) interface. Rather than committing to a complete action sequence upfront, the LLM acts as an interactive search policy that selects one action at a time, observes each resulting state, and can reset and retry. We evaluate four approaches on 102 International Planning Competition (IPC) Blocksworld instances under a uniform 180-second budget: Fast Downward lama-first and seq-sat-lama-2011 as classical baselines, direct LLM planning (Claude Haiku 4.5), and agentic LLM planning via PyPDDLEngine. Fast Downward achieves 85.3% success. The direct and agentic LLM approaches achieve 63.7% and 66.7%, respectively, a consistent but modest three-percentage-point advantage for the agentic approach at $5.7\times$ higher token cost per solution. Across most co-solved difficulty blocks, both LLM approaches produce shorter plans than seq-sat-lama-2011 despite its iterative quality improvement, a result consistent with training-data recall rather than generalisable planning. These results suggest that agentic gains depend on the nature of environmental feedback. Coding agents benefit from externally grounded signals such as compiler errors and test failures, whereas PDDL step feedback is self-assessed, leaving the agent to evaluate its own progress without external verification.
- Abstract(参考訳): タスクプランニングは、初期状態から目標を達成するためにアクションをシークエンシングする問題であり、自律型ロボットシステムのコア機能要件である。
大きな言語モデル(LLM)が古典的な記号的手法と並んで実行可能なプランナーとして機能するかどうかについては未解決のままである。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineについて述べる。
LLMは、前もって完全なアクションシーケンスにコミットするのではなく、対話的な検索ポリシーとして機能し、一度にひとつのアクションを選択し、それぞれの状態を観察し、リセットとリトライを行うことができる。
我々は102国際計画コンペティション(IPC)Blocksworldインスタンスを180秒の予算で評価し,古典的ベースラインとしてFast Downward lama-first, Seq-sat-lama-2011, 直接LSM計画(Claude Haiku 4.5), PyPDDLEngineによるエージェントLSM計画を行った。
スピードダウンは85.3%の成功を収めた。
直接的およびエージェント的LLMアプローチは、それぞれ63.7%と66.7%を達成し、一貫した3パーセントの利点は、エージェント的アプローチに対して5.7\times$高いトークンコストである。
ほとんどの共解決困難ブロックの中で、両方のLLMアプローチは、反復的な品質改善にもかかわらず、セックサットラマ2011よりも短い計画を生成するが、結果として一般的な計画よりもトレーニングデータリコールと一致している。
これらの結果から, エージェントの利得は環境フィードバックの性質に依存することが示唆された。
一方、PDDLのステップフィードバックは自己評価され、エージェントは外部の検証なしに独自の進捗を評価する。
関連論文リスト
- LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-11-13T23:19:43Z) - Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文 参考訳(メタデータ) (2025-11-08T08:49:38Z) - Plan Verification for LLM-Based Embodied Task Completion Agents [10.439882851477162]
大規模言語モデル(LLM)に基づくタスク計画とそれに対応するAIの人間による実演は騒々しいかもしれない。
審査員が行動系列を批判し、プランナーLLMが修正を適用する反復検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T19:06:56Z) - ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。
複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。
この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文 参考訳(メタデータ) (2025-08-03T11:26:35Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。