Fugu-MT 論文翻訳(概要): RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

論文の概要: RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2402.15487v1
Date: Fri, 23 Feb 2024 18:27:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 13:43:07.372902
Title: RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation
Title（参考訳）: RoboEXP:ロボットマニピュレーションのためのインタラクティブ探索によるアクションコンディションシーングラフ
Authors: Hanxiao Jiang, Binghao Huang, Ruihai Wu, Zhuoran Li, Shubham Garg, Hooshang Nayyeri, Shenlong Wang, Yunzhu Li
Abstract要約: 本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。 ACSGは、幾何学や意味論のような低レベル情報と、シーン内の異なるエンティティ間のアクション条件付き関係のような高レベル情報の両方を記述している。実世界の様々な環境にゼロショットで適用し、これまで見たことのない環境の探索とモデリングにその効果を実証する。
参考スコア（独自算出の注目度）: 22.30830950219317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots need to explore their surroundings to adapt to and tackle tasks in unknown environments. Prior work has proposed building scene graphs of the environment but typically assumes that the environment is static, omitting regions that require active interactions. This severely limits their ability to handle more complex tasks in household and office environments: before setting up a table, robots must explore drawers and cabinets to locate all utensils and condiments. In this work, we introduce the novel task of interactive scene exploration, wherein robots autonomously explore environments and produce an action-conditioned scene graph (ACSG) that captures the structure of the underlying environment. The ACSG accounts for both low-level information, such as geometry and semantics, and high-level information, such as the action-conditioned relationships between different entities in the scene. To this end, we present the Robotic Exploration (RoboEXP) system, which incorporates the Large Multimodal Model (LMM) and an explicit memory design to enhance our system's capabilities. The robot reasons about what and how to explore an object, accumulating new information through the interaction process and incrementally constructing the ACSG. We apply our system across various real-world settings in a zero-shot manner, demonstrating its effectiveness in exploring and modeling environments it has never seen before. Leveraging the constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP system in facilitating a wide range of real-world manipulation tasks involving rigid, articulated objects, nested objects like Matryoshka dolls, and deformable objects like cloth.
Abstract（参考訳）: ロボットは、未知の環境でタスクに適応し、対処するために周囲を探索する必要がある。以前の研究では環境のシーングラフの構築が提案されていたが、通常、環境は静的であり、アクティブな相互作用を必要とする領域を省略する。テーブルをセットアップする前に、ロボットはすべての道具や調味料を見つけるために引き出しやキャビネットを探索しなければならない。本研究では,ロボットが環境を自律的に探索し,環境の構造を捉えた行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。 acsgは、幾何学や意味論などの低レベル情報と、シーン内の異なるエンティティ間のアクション条件付き関係のような高レベル情報の両方を記述している。そこで本研究では,大規模マルチモーダルモデル (lmm) と明示的なメモリ設計を組み込んだロボット探索 (roboexp) システムを提案する。ロボットは、オブジェクトの探索方法や、インタラクションプロセスを通じて新しい情報を蓄積し、ACSGを漸進的に構築する。実世界の様々な環境にゼロショットで適用し、これまで見たことのない環境の探索とモデリングにその効果を実証する。構築したacsgを活用したroboexpシステムでは,剛性のある関節のある物体,マトリオシュカ人形のようなネストされた物体,布のような変形可能な物体を含む,幅広い実世界の操作作業が容易になる。

関連論文リスト

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph [12.54884302440877]
モバイル探索は、ロボット工学における長年の課題である。アクティブな相互作用による既存のロボット探査アプローチは、しばしばテーブルトップシーンに制限される。本稿では,多種多様なオブジェクト関係を符号化し,活発な相互作用による探索を可能にする3Dリレーショナルオブジェクトグラフを提案する。
論文参考訳（メタデータ） (2025-01-23T02:39:04Z)
One to rule them all: natural language to bind communication, perception and action [0.9302364070735682]
本稿では,Large Language Models (LLMs) によるコミュニケーション,知覚,計画を統合したロボット行動計画のための高度なアーキテクチャを提案する。 Planner Moduleはシステムの中核であり、修正されたReActフレームワークに組み込み、ユーザーコマンドの解釈と実行にLLMが使用される。修正されたReActフレームワークは、リアルタイムな環境認識と身体行動の結果を提供することにより、実行スペースをさらに強化する。
論文参考訳（メタデータ） (2024-11-22T16:05:54Z)
Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文参考訳（メタデータ） (2024-11-22T15:58:26Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文参考訳（メタデータ） (2024-06-28T08:28:38Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文参考訳（メタデータ） (2023-07-12T12:25:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。