論文の概要: Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study
- arxiv url: http://arxiv.org/abs/2507.23589v1
- Date: Thu, 31 Jul 2025 14:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.919251
- Title: Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study
- Title(参考訳): LLM推論モデルは古典的計画を置き換えることができるか? : ベンチマークスタディ
- Authors: Kai Goebel, Patrik Zips,
- Abstract要約: 大規模言語モデルは、ロボットタスク計画への関心を喚起している。
これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。
本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models have sparked interest in their potential for robotic task planning. While these models demonstrate strong generative capabilities, their effectiveness in producing structured and executable plans remains uncertain. This paper presents a systematic evaluation of a broad spectrum of current state of the art language models, each directly prompted using Planning Domain Definition Language domain and problem files, and compares their planning performance with the Fast Downward planner across a variety of benchmarks. In addition to measuring success rates, we assess how faithfully the generated plans translate into sequences of actions that can actually be executed, identifying both strengths and limitations of using these models in this setting. Our findings show that while the models perform well on simpler planning tasks, they continue to struggle with more complex scenarios that require precise resource management, consistent state tracking, and strict constraint compliance. These results underscore fundamental challenges in applying language models to robotic planning in real world environments. By outlining the gaps that emerge during execution, we aim to guide future research toward combined approaches that integrate language models with classical planners in order to enhance the reliability and scalability of planning in autonomous robotics.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、ロボットタスク計画の可能性への関心を喚起している。
これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。
本稿では,計画ドメイン定義言語ドメインと問題ファイルを直接使用して,現在の最先端言語モデルの幅広いスペクトルを体系的に評価し,その計画性能を様々なベンチマークで比較する。
成功率の測定に加えて、生成したプランが実際に実行可能なアクションのシーケンスにいかに忠実に変換されるかを評価し、この設定でこれらのモデルを使用する際の長所と短所の両方を識別する。
我々の研究結果は、モデルがより単純な計画タスクでうまく機能する一方で、厳密なリソース管理、一貫した状態追跡、厳密な制約コンプライアンスを必要とする、より複雑なシナリオに苦慮していることを示している。
これらの結果は,実環境におけるロボット計画に言語モデルを適用する上での根本的な課題を浮き彫りにしている。
実行中に生じるギャップを概説することにより、自律ロボット工学における計画の信頼性とスケーラビリティを高めるために、言語モデルと古典的なプランナーを統合するアプローチの統合に向けた今後の研究を導くことを目的としている。
関連論文リスト
- LODGE: Joint Hierarchical Task Planning and Learning of Domain Models with Grounded Execution [16.16223684887115]
大型言語モデル(LLM)は、暗黙の世界知識を用いた自然言語命令からのプランニングを可能にする。
最近の手法は、古典的なプランナーを用いて、異なる目標状態に対して解決可能な問題領域を学習することを目的としている。
低レベルの述語と行動が上位の述語に構成される階層的なドメインを学習することで、この欠点に対処する。
論文 参考訳(メタデータ) (2025-05-15T20:23:21Z) - LLMs as Planning Modelers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models [24.230622369142193]
大規模言語モデル(LLM)は様々な自然言語処理に優れるが、長い水平計画問題に悩まされることが多い。
この制限は、自動計画(AP)と自然言語処理(NLP)コミュニティにニューロシンボリックアプローチを統合することに関心を寄せている。
論文 参考訳(メタデータ) (2025-03-22T03:35:44Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。