論文の概要: How Far Are LLMs from Symbolic Planners? An NLP-Based Perspective
- arxiv url: http://arxiv.org/abs/2508.01300v1
- Date: Sat, 02 Aug 2025 10:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.808919
- Title: How Far Are LLMs from Symbolic Planners? An NLP-Based Perspective
- Title(参考訳): シンボリックプランナーからLLMはどこまで遠いか? : NLPに基づく視点
- Authors: Ma'ayan Armony, Albert Meroño-Peñuela, Gerard Canal,
- Abstract要約: 提案手法では,NLP の操作により,生成した計画のNLP に基づく評価と,計画の復元を行う3つの段階からなるリカバリパイプラインを提案する。
本研究は, 計画生成における基礎的理由づけの明確な証拠は得られず, 従来の計画立案者の品質と信頼性に乏しく, NLPに基づく計画解析と回復機構を併用したパイプラインが依然として不足していることを示す。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reasoning and planning abilities of Large Language Models (LLMs) have been a frequent topic of discussion in recent years. Their ability to take unstructured planning problems as input has made LLMs' integration into AI planning an area of interest. Nevertheless, LLMs are still not reliable as planners, with the generated plans often containing mistaken or hallucinated actions. Existing benchmarking and evaluation methods investigate planning with LLMs, focusing primarily on success rate as a quality indicator in various planning tasks, such as validating plans or planning in relaxed conditions. In this paper, we approach planning with LLMs as a natural language processing (NLP) task, given that LLMs are NLP models themselves. We propose a recovery pipeline consisting of an NLP-based evaluation of the generated plans, along with three stages to recover the plans through NLP manipulation of the LLM-generated plans, and eventually complete the plan using a symbolic planner. This pipeline provides a holistic analysis of LLM capabilities in the context of AI task planning, enabling a broader understanding of the quality of invalid plans. Our findings reveal no clear evidence of underlying reasoning during plan generation, and that a pipeline comprising an NLP-based analysis of the plans, followed by a recovery mechanism, still falls short of the quality and reliability of classical planners. On average, only the first 2.65 actions of the plan are executable, with the average length of symbolically generated plans being 8.4 actions. The pipeline still improves action quality and increases the overall success rate from 21.9% to 27.5%.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論と計画能力は近年,議論の的となっている。
インプットとして構造化されていない計画上の問題を取り上げる能力は、LLMをAI計画に統合することに関心のある領域にしました。
それでも、LSMは依然としてプランナーとして信頼性が低く、生成された計画には誤りや幻覚を含むことがしばしばある。
既存のベンチマークや評価手法では, 計画の検証や緩和条件の計画など, 様々な計画課題における品質指標としての成功率に重点を置いている。
本稿では,LLM自体がNLPモデルであることから,自然言語処理(NLP)タスクとしてのLLMを用いた計画手法を提案する。
提案手法は,LPM生成計画のNLP操作により計画の回復を図り,最終的にシンボルプランナーを用いて計画を完成させる3段階とともに,生成計画のNLPに基づく評価からなるリカバリパイプラインを提案する。
このパイプラインは、AIタスク計画のコンテキストにおけるLLM機能の全体的な分析を提供し、無効な計画の品質をより深く理解することを可能にする。
本研究は, 計画生成における基礎的理由づけの明確な証拠は得られず, 従来の計画立案者の品質と信頼性に乏しく, NLPに基づく計画解析と回復機構を併用したパイプラインが依然として不足していることを示す。
平均して、計画の最初の2.65アクションのみが実行可能であり、象徴的に生成された計画の平均時間は8.4アクションである。
パイプラインは依然として行動品質を改善し、全体の成功率は21.9%から27.5%に向上している。
関連論文リスト
- PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting [4.500734889060007]
本稿では,大規模言語モデル(LLM)とタスク計画システムの相乗効果について述べる。
本稿では,計画の有効性を高めつつ冗長性を最小化するVote-Tree-Plannerを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:08:06Z) - Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。
大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。
実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-25T13:33:22Z) - Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation [34.636688162807836]
本研究では、エンド・ツー・エンドのLSMプランナを開発することで、最近の戦略を再評価する。
プランニングインスタンスのコーパス上での微調整 LLM は、ロバストなプランニングスキルに繋がらないことがわかった。
Chain-of-Thoughtを含む様々な戦略は、計画の実行可能性を高める。
論文 参考訳(メタデータ) (2024-12-14T04:23:14Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Open Grounded Planning: Challenges and Benchmark Construction [44.86307213996181]
我々は,新たな計画課題--オープン・グランド・プランニングを提案する。
オープングランドプランニングの主な目的は、可変アクションセットに基づいて実行可能なプランを生成するようモデルに求めることである。
そして、現在最先端のLLMを5つの計画手法とともにテストし、既存のLLMとメソッドが、オープンドメインの基盤となる計画によってもたらされる課題を解決するのに依然として苦労していることを明らかにした。
論文 参考訳(メタデータ) (2024-06-05T03:46:52Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - On the Roles of LLMs in Planning: Embedding LLMs into Planning Graphs [12.326862964753694]
市販の計画フレームワークにおける大規模言語モデル(LLM)の計画能力について考察する。
LLMを2段階の計画グラフに組み込んだ新しいLLMベースの計画フレームワークを提案する。
様々な計画領域において提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2024-02-18T15:53:32Z) - Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning [59.543858889996024]
大規模言語モデル(LLM)は、様々なNLPタスクに革命をもたらした。
LLMを利用してPDDL入力からNLプロンプトを自動的に生成する方法を示す。
我々のNLプロンプトはPDDLプロンプトや単純なテンプレートベースのNLプロンプトよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-16T11:55:27Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。