論文の概要: RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for
Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2402.15487v1
- Date: Fri, 23 Feb 2024 18:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:43:07.372902
- Title: RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for
Robotic Manipulation
- Title(参考訳): RoboEXP:ロボットマニピュレーションのためのインタラクティブ探索によるアクションコンディションシーングラフ
- Authors: Hanxiao Jiang, Binghao Huang, Ruihai Wu, Zhuoran Li, Shubham Garg,
Hooshang Nayyeri, Shenlong Wang, Yunzhu Li
- Abstract要約: 本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。
ACSGは、幾何学や意味論のような低レベル情報と、シーン内の異なるエンティティ間のアクション条件付き関係のような高レベル情報の両方を記述している。
実世界の様々な環境にゼロショットで適用し、これまで見たことのない環境の探索とモデリングにその効果を実証する。
- 参考スコア(独自算出の注目度): 22.30830950219317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots need to explore their surroundings to adapt to and tackle tasks in
unknown environments. Prior work has proposed building scene graphs of the
environment but typically assumes that the environment is static, omitting
regions that require active interactions. This severely limits their ability to
handle more complex tasks in household and office environments: before setting
up a table, robots must explore drawers and cabinets to locate all utensils and
condiments. In this work, we introduce the novel task of interactive scene
exploration, wherein robots autonomously explore environments and produce an
action-conditioned scene graph (ACSG) that captures the structure of the
underlying environment. The ACSG accounts for both low-level information, such
as geometry and semantics, and high-level information, such as the
action-conditioned relationships between different entities in the scene. To
this end, we present the Robotic Exploration (RoboEXP) system, which
incorporates the Large Multimodal Model (LMM) and an explicit memory design to
enhance our system's capabilities. The robot reasons about what and how to
explore an object, accumulating new information through the interaction process
and incrementally constructing the ACSG. We apply our system across various
real-world settings in a zero-shot manner, demonstrating its effectiveness in
exploring and modeling environments it has never seen before. Leveraging the
constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP
system in facilitating a wide range of real-world manipulation tasks involving
rigid, articulated objects, nested objects like Matryoshka dolls, and
deformable objects like cloth.
- Abstract(参考訳): ロボットは、未知の環境でタスクに適応し、対処するために周囲を探索する必要がある。
以前の研究では環境のシーングラフの構築が提案されていたが、通常、環境は静的であり、アクティブな相互作用を必要とする領域を省略する。
テーブルをセットアップする前に、ロボットはすべての道具や調味料を見つけるために引き出しやキャビネットを探索しなければならない。
本研究では,ロボットが環境を自律的に探索し,環境の構造を捉えた行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。
acsgは、幾何学や意味論などの低レベル情報と、シーン内の異なるエンティティ間のアクション条件付き関係のような高レベル情報の両方を記述している。
そこで本研究では,大規模マルチモーダルモデル (lmm) と明示的なメモリ設計を組み込んだロボット探索 (roboexp) システムを提案する。
ロボットは、オブジェクトの探索方法や、インタラクションプロセスを通じて新しい情報を蓄積し、ACSGを漸進的に構築する。
実世界の様々な環境にゼロショットで適用し、これまで見たことのない環境の探索とモデリングにその効果を実証する。
構築したacsgを活用したroboexpシステムでは,剛性のある関節のある物体,マトリオシュカ人形のようなネストされた物体,布のような変形可能な物体を含む,幅広い実世界の操作作業が容易になる。
関連論文リスト
- One to rule them all: natural language to bind communication, perception and action [0.9302364070735682]
本稿では,Large Language Models (LLMs) によるコミュニケーション,知覚,計画を統合したロボット行動計画のための高度なアーキテクチャを提案する。
Planner Moduleはシステムの中核であり、修正されたReActフレームワークに組み込み、ユーザーコマンドの解釈と実行にLLMが使用される。
修正されたReActフレームワークは、リアルタイムな環境認識と身体行動の結果を提供することにより、実行スペースをさらに強化する。
論文 参考訳(メタデータ) (2024-11-22T16:05:54Z) - Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。
このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文 参考訳(メタデータ) (2024-11-22T15:58:26Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。