論文の概要: An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs
- arxiv url: http://arxiv.org/abs/2502.20175v1
- Date: Thu, 27 Feb 2025 15:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:12.587691
- Title: An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs
- Title(参考訳): 市販LCMのPDDL機能評価
- Authors: Kaustubh Vyas, Damien Graux, Sébastien Montella, Pavlos Vougiouklis, Ruofei Lai, Keshuang Li, Yang Ren, Jeff Z. Pan,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成とチェーン・オブ・シークレット推論に習熟している。
本研究では,計画ドメイン定義言語(PDDL)の理解と生成のためのLLMの可能性を評価する。
- 参考スコア(独自算出の注目度): 11.998185452551878
- License:
- Abstract: In recent advancements, large language models (LLMs) have exhibited proficiency in code generation and chain-of-thought reasoning, laying the groundwork for tackling automatic formal planning tasks. This study evaluates the potential of LLMs to understand and generate Planning Domain Definition Language (PDDL), an essential representation in artificial intelligence planning. We conduct an extensive analysis across 20 distinct models spanning 7 major LLM families, both commercial and open-source. Our comprehensive evaluation sheds light on the zero-shot LLM capabilities of parsing, generating, and reasoning with PDDL. Our findings indicate that while some models demonstrate notable effectiveness in handling PDDL, others pose limitations in more complex scenarios requiring nuanced planning knowledge. These results highlight the promise and current limitations of LLMs in formal planning tasks, offering insights into their application and guiding future efforts in AI-driven planning paradigms.
- Abstract(参考訳): 近年の進歩で、大規模言語モデル(LLM)はコード生成とチェーン・オブ・シークレットの推論に習熟し、自動的なフォーマルな計画タスクに取り組むための基礎を築いた。
本研究は、人工知能計画において重要な表現である計画領域定義言語(PDDL)を理解し、生成するLLMの可能性を評価する。
商用およびオープンソースの両方で、7つの主要なLLMファミリーにまたがる20の異なるモデルに対して、広範な分析を行う。
総合評価では,PDDLによる解析,生成,推論のゼロショットLLM機能に光を当てている。
以上の結果から,PDDLの処理に顕著な効果を示すモデルもあれば,複雑なシナリオでは複雑な計画知識を必要とするモデルもあることが示唆された。
これらの結果は、正式な計画タスクにおけるLLMの約束と現在の制限を強調し、アプリケーションに対する洞察を提供し、AI駆動の計画パラダイムにおける今後の取り組みを導く。
関連論文リスト
- A Survey on Large Language Models for Automated Planning [15.767084100431115]
自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。
これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
論文 参考訳(メタデータ) (2025-02-18T02:11:03Z) - Embodied CoT Distillation From LLM To Off-the-shelf Agents [6.318203525449058]
DeDerは、大規模言語モデル(LLM)から具体的推論能力を分解し、蒸留するためのフレームワークである。
ALFREDベンチマークによる我々の実験は、DeDerが先進的な言語計画と蒸留アプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-12-16T07:18:02Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、接地された環境で検証可能な計画を作成するのに失敗する。
新たな作業のラインは、計画領域の形式表現を生成するフォーマライザとしてLLMを使うことの成功を示しています。
我々は,PDDLとして記述を効果的に定式化できるモデルが十分に大きいことを観察し,それらを直接的に生成する計画よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - On the Roles of LLMs in Planning: Embedding LLMs into Planning Graphs [12.326862964753694]
市販の計画フレームワークにおける大規模言語モデル(LLM)の計画能力について考察する。
LLMを2段階の計画グラフに組み込んだ新しいLLMベースの計画フレームワークを提案する。
様々な計画領域において提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2024-02-18T15:53:32Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。