論文の概要: Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models
- arxiv url: http://arxiv.org/abs/2408.07975v1
- Date: Thu, 15 Aug 2024 06:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:46:15.980887
- Title: Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models
- Title(参考訳): Polaris: Syn2Realビジュアルグラウンドと大規模言語モデルによるオープンエンドインタラクティブロボットマニピュレーション
- Authors: Tianyu Wang, Haitao Lin, Junqiu Yu, Yanwei Fu,
- Abstract要約: 我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
- 参考スコア(独自算出の注目度): 53.22792173053473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the task of the open-ended interactive robotic manipulation on table-top scenarios. While recent Large Language Models (LLMs) enhance robots' comprehension of user instructions, their lack of visual grounding constrains their ability to physically interact with the environment. This is because the robot needs to locate the target object for manipulation within the physical workspace. To this end, we introduce an interactive robotic manipulation framework called Polaris, which integrates perception and interaction by utilizing GPT-4 alongside grounded vision models. For precise manipulation, it is essential that such grounded vision models produce detailed object pose for the target object, rather than merely identifying pixels belonging to them in the image. Consequently, we propose a novel Synthetic-to-Real (Syn2Real) pose estimation pipeline. This pipeline utilizes rendered synthetic data for training and is then transferred to real-world manipulation tasks. The real-world performance demonstrates the efficacy of our proposed pipeline and underscores its potential for extension to more general categories. Moreover, real-robot experiments have showcased the impressive performance of our framework in grasping and executing multiple manipulation tasks. This indicates its potential to generalize to scenarios beyond the tabletop. More information and video results are available here: https://star-uu-wang.github.io/Polaris/
- Abstract(参考訳): 本稿では,テーブルトップシナリオにおけるオープンエンド対話型ロボット操作の課題について検討する。
近年のLarge Language Models (LLM) では,ロボットによるユーザ指示の理解が促進されているが,視覚的基盤の欠如は,環境と物理的に対話する能力を制限している。
これは、ロボットが物理的な作業空間内で操作するための対象物を見つける必要があるためである。
そこで我々は,GPT-4と接地型視覚モデルを利用して知覚と相互作用を統合する,Polarisという対話型ロボット操作フレームワークを導入する。
正確な操作のためには、画像に写っているピクセルを単に識別するのではなく、対象物に対する詳細なオブジェクトポーズを生成することが不可欠である。
そこで本研究では,Syn2Real(Synthetic-to-Real)のポーズ推定パイプラインを提案する。
このパイプラインは、レンダリングされた合成データをトレーニングに利用し、実世界の操作タスクに転送する。
実世界の性能は、提案したパイプラインの有効性を示し、より一般的なカテゴリへの拡張の可能性を強調している。
さらに、実ロボット実験は、複数の操作タスクの把握と実行において、我々のフレームワークの素晴らしいパフォーマンスを示した。
これはテーブルトップ以外のシナリオに一般化する可能性を示している。
詳しい情報とビデオはこちらから入手できる。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - ManiFoundation Model for General-Purpose Robotic Manipulation of Contact Synthesis with Arbitrary Objects and Robots [24.035706461949715]
汎用ロボットが幅広い操作タスクをこなせるようなモデルを開発する必要がある。
本研究は,汎用ロボット操作の基礎モデルを構築するための包括的枠組みを導入する。
私たちのモデルは、平均的な成功率を約90%達成します。
論文 参考訳(メタデータ) (2024-05-11T09:18:37Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects
with Graph Networks [32.00371492516123]
弾塑性物体のモデリングと操作のためのモデルベース計画フレームワークを提案する。
我々のシステムであるRoboCraftは、グラフニューラルネットワーク(GNN)を用いて粒子ベースの力学モデルを学び、基礎となるシステムの構造を捉える。
実世界のロボットインタラクションデータの10分で、ロボットは制御信号を合成し、弾塑性の物体を様々な形状に変形させるダイナミックスモデルを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-05T20:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。