論文の概要: AutoGPT+P: Affordance-based Task Planning with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.10778v2
- Date: Tue, 23 Jul 2024 14:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:03:22.934361
- Title: AutoGPT+P: Affordance-based Task Planning with Large Language Models
- Title(参考訳): AutoGPT+P:大規模言語モデルを用いた順応型タスクプランニング
- Authors: Timo Birr, Christoph Pohl, Abdelrahman Younes, Tamim Asfour,
- Abstract要約: AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。
提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
- 参考スコア(独自算出の注目度): 6.848986296339031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in task planning leverage Large Language Models (LLMs) to improve generalizability by combining such models with classical planning algorithms to address their inherent limitations in reasoning capabilities. However, these approaches face the challenge of dynamically capturing the initial state of the task planning problem. To alleviate this issue, we propose AutoGPT+P, a system that combines an affordance-based scene representation with a planning system. Affordances encompass the action possibilities of an agent on the environment and objects present in it. Thus, deriving the planning domain from an affordance-based scene representation allows symbolic planning with arbitrary objects. AutoGPT+P leverages this representation to derive and execute a plan for a task specified by the user in natural language. In addition to solving planning tasks under a closed-world assumption, AutoGPT+P can also handle planning with incomplete information, e. g., tasks with missing objects by exploring the scene, suggesting alternatives, or providing a partial plan. The affordance-based scene representation combines object detection with an automatically generated object-affordance-mapping using ChatGPT. The core planning tool extends existing work by automatically correcting semantic and syntactic errors. Our approach achieves a success rate of 98%, surpassing the current 81% success rate of the current state-of-the-art LLM-based planning method SayCan on the SayCan instruction set. Furthermore, we evaluated our approach on our newly created dataset with 150 scenarios covering a wide range of complex tasks with missing objects, achieving a success rate of 79% on our dataset. The dataset and the code are publicly available at https://git.h2t.iar.kit.edu/birr/autogpt-p-standalone.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を活用し,従来の計画アルゴリズムと組み合わせて推論能力に固有の制約に対処することによって,一般化性の向上が図られている。
しかし、これらの手法はタスク計画問題の初期状態を動的に捉えるという課題に直面している。
この問題を軽減するために,価格に基づくシーン表現と計画システムを組み合わせたAutoGPT+Pを提案する。
改善には、エージェントが環境やその中に存在しているオブジェクトに作用する可能性が含まれる。
したがって、プランニングドメインを空きベースのシーン表現から導出することで、任意のオブジェクトによるシンボリックプランニングが可能になる。
AutoGPT+Pはこの表現を利用して、自然言語でユーザが指定したタスクの計画を導出し実行します。
クローズドワールド仮定の下での計画タスクの解決に加えて、AutoGPT+Pは不完全な情報による計画処理も可能である。
G
シーンの探索、代替案の提案、あるいは部分的なプランの提供によって、オブジェクトの欠落を伴うタスク。
空き時間に基づくシーン表現は、ChatGPTを用いたオブジェクト検出と自動生成されたオブジェクトアロディマッピングを組み合わせる。
コアプランニングツールは、セマンティックエラーと構文エラーを自動的に修正することで、既存の作業を拡張する。
提案手法は,現在のSyCan命令セットにおいて,現在のLLM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
さらに、新たに作成したデータセットに150のシナリオでアプローチを評価し、欠落したオブジェクトを含む幅広い複雑なタスクをカバーし、データセットで79%の成功率を達成した。
データセットとコードはhttps://git.h2t.iar.kit.edu/birr/autogpt-p-standaloneで公開されている。
関連論文リスト
- Dynamic Planning for LLM-based Graphical User Interface Automation [48.31532014795368]
LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。
D-PoTは環境フィードバックと実行履歴に基づいて計画の動的調整を行う。
実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%上回った。
論文 参考訳(メタデータ) (2024-10-01T07:49:24Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。