論文の概要: PROC2PDDL: Open-Domain Planning Representations from Texts
- arxiv url: http://arxiv.org/abs/2403.00092v2
- Date: Tue, 2 Jul 2024 04:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:39:17.776149
- Title: PROC2PDDL: Open-Domain Planning Representations from Texts
- Title(参考訳): PROC2PDDL: テキストからのオープンドメイン計画表現
- Authors: Tianyi Zhang, Li Zhang, Zhaoyi Hou, Ziyu Wang, Yuling Gu, Peter Clark, Chris Callison-Burch, Niket Tandon,
- Abstract要約: Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
- 参考スコア(独自算出の注目度): 56.627183903841164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Planning in a text-based environment continues to be a major challenge for AI systems. Recent approaches have used language models to predict a planning domain definition (e.g., PDDL) but have only been evaluated in closed-domain simulated environments. To address this, we present Proc2PDDL , the first dataset containing open-domain procedural texts paired with expert-annotated PDDL representations. Using this dataset, we evaluate state-of-the-art models on defining the preconditions and effects of actions. We show that Proc2PDDL is highly challenging, with GPT-3.5's success rate close to 0% and GPT-4's around 35%. Our analysis shows both syntactic and semantic errors, indicating LMs' deficiency in both generating domain-specific prgorams and reasoning about events. We hope this analysis and dataset helps future progress towards integrating the best of LMs and formal planning.
- Abstract(参考訳): テキストベースの環境での計画は、AIシステムにとって引き続き大きな課題である。
近年のアプローチでは、計画ドメイン定義(PDDLなど)の予測に言語モデルを使用しているが、クローズドドメインシミュレーション環境でのみ評価されている。
そこで本論文では、オープンドメインのプロシージャテキストを含む最初のデータセットであるProc2PDDLと、専門家によるPDDL表現のペアについて述べる。
このデータセットを用いて、動作の前提条件と効果を定義する上で、最先端のモデルを評価する。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
本分析は, 統語的誤りと意味的誤りの両方を示し, ドメイン固有のプラゴラムの生成と事象の推論の両方においてLMが欠如していることを示している。
この分析とデータセットは、LMのベストとフォーマルな計画の統合に向けた今後の進歩に役立つことを願っています。
関連論文リスト
- Generating Symbolic World Models via Test-time Scaling of Large Language Models [28.258707611580643]
計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。
提案手法は,まずまずBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する。
本手法はPDDL ドメインの生成において O1-mini よりも優れ,2つのタスクで50% 以上の成功率を達成した。
論文 参考訳(メタデータ) (2025-02-07T07:52:25Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、接地された環境で検証可能な計画を作成するのに失敗する。
新たな作業のラインは、計画領域の形式表現を生成するフォーマライザとしてLLMを使うことの成功を示しています。
我々は,PDDLとして記述を効果的に定式化できるモデルが十分に大きいことを観察し,それらを直接的に生成する計画よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。
潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。
LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T19:50:51Z) - Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages [20.62336315814875]
計画タスクの自然言語記述からPDDLコードを生成する言語モデルの性能を評価するためのベンチマークである textitPlanetarium を紹介する。
textitPlanetariumは、生成したPDDLの正しさを柔軟に評価する新しいPDDL同値アルゴリズムと、145,918のテキスト-PDDLペアのデータセットを備える。
論文 参考訳(メタデータ) (2024-07-03T17:59:53Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。