論文の概要: ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning
- arxiv url: http://arxiv.org/abs/2409.15658v1
- Date: Tue, 24 Sep 2024 01:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 11:19:39.685685
- Title: ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning
- Title(参考訳): ReLEP: 現実世界のロングホライズン・エンボディード・プランニングのための新しいフレームワーク
- Authors: Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo,
- Abstract要約: 本稿では,RelePについて紹介する。
コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。
ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
- 参考スコア(独自算出の注目度): 7.668848364013772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, agents need to decompose abstract instructions into detailed steps. Prior works mostly rely on GPT-4V for task decomposition into predefined actions, which limits task diversity due to GPT-4V's finite understanding of larger skillsets. Therefore, we present ReLEP, a groundbreaking framework for Real world Long-horizon Embodied Planning, which can accomplish a wide range of daily tasks. At its core lies a fine-tuned large vision language model that formulates plans as sequences of skill functions according to input instruction and scene image. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a semi-automatic data generation pipeline to tackle dataset scarcity. Real-world off-line experiments across eight daily embodied tasks demonstrate that ReLEP is able to accomplish long-horizon embodied tasks and outperforms other state-of-the-art baseline methods.
- Abstract(参考訳): 現実世界のロングホライゾンは、AIを具現化したプランニング基盤を具現化した。
長期的タスクを達成するには、エージェントは抽象的な命令を詳細なステップに分解する必要がある。
以前の研究は主に、GPT-4Vがより大きなスキルセットを有限に理解しているためにタスクの多様性を制限する事前定義された動作へのタスク分解にGPT-4Vに依存していた。
そこで,本稿では,RelePについて紹介する。RelePは,現実世界における長期体育計画の基盤となるフレームワークであり,多様な日常業務をこなすことができる。
中心となるのは、入力命令とシーンイメージに基づいて、プランを一連のスキル関数として定式化する、微調整された大きな視覚言語モデルである。
これらの機能は、慎重に設計されたスキルライブラリから選択される。
ReLEPはまた、計画とステータスリコールのためのメモリモジュールと、ロボットタイプ間の汎用性のためのRobot Configurationモジュールも備えている。
さらに,データセットの不足に対処する半自動データ生成パイプラインを提案する。
8つの日常的な実施タスクにわたる実世界のオフライン実験は、ReLEPが長い水平な実施タスクを達成でき、他の最先端のベースライン手法よりも優れていることを示した。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks [13.29302304547683]
自然言語処理における大規模言語モデル(LLM)は、複雑なロボット計画にLLMを使うことに刺激を与えている。
本稿では,日常業務の長期的決定を具体化するRoboGPTエージェントを提案する。
提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-11-27T09:20:23Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Long-Horizon Planning and Execution with Functional Object-Oriented
Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。
提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。
我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-07-12T19:29:35Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。