論文の概要: INVIGORATE: Interactive Visual Grounding and Grasping in Clutter
- arxiv url: http://arxiv.org/abs/2108.11092v2
- Date: Mon, 8 Jan 2024 02:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:57:26.943534
- Title: INVIGORATE: Interactive Visual Grounding and Grasping in Clutter
- Title(参考訳): InVIGORATE: Clutterにおけるインタラクティブなビジュアルグラウンドとグラッピング
- Authors: Hanbo Zhang, Yunfan Lu, Cunjun Yu, David Hsu, Xuguang Lan, Nanning
Zheng
- Abstract要約: INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
- 参考スコア(独自算出の注目度): 56.00554240240515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents INVIGORATE, a robot system that interacts with human
through natural language and grasps a specified object in clutter. The objects
may occlude, obstruct, or even stack on top of one another. INVIGORATE embodies
several challenges: (i) infer the target object among other occluding objects,
from input language expressions and RGB images, (ii) infer object blocking
relationships (OBRs) from the images, and (iii) synthesize a multi-step plan to
ask questions that disambiguate the target object and to grasp it successfully.
We train separate neural networks for object detection, for visual grounding,
for question generation, and for OBR detection and grasping. They allow for
unrestricted object categories and language expressions, subject to the
training datasets. However, errors in visual perception and ambiguity in human
languages are inevitable and negatively impact the robot's performance. To
overcome these uncertainties, we build a partially observable Markov decision
process (POMDP) that integrates the learned neural network modules. Through
approximate POMDP planning, the robot tracks the history of observations and
asks disambiguation questions in order to achieve a near-optimal sequence of
actions that identify and grasp the target object. INVIGORATE combines the
benefits of model-based POMDP planning and data-driven deep learning.
Preliminary experiments with INVIGORATE on a Fetch robot show significant
benefits of this integrated approach to object grasping in clutter with natural
language interactions. A demonstration video is available at
https://youtu.be/zYakh80SGcU.
- Abstract(参考訳): 本稿では,自然言語を介して人間と対話し,特定の物体をクラッターで把握するロボットシステムinvigorateを提案する。
オブジェクトは、互いにブロックしたり、妨害したり、あるいは積み重ねたりすることができる。
活気づけはいくつかの課題を具現化します
(i)入力言語表現とrgb画像から他のoccludingオブジェクトの中から対象オブジェクトを推測する。
(ii)画像からオブジェクトブロッキング関係(OBR)を推測し、
(iii)対象オブジェクトを曖昧にしない質問をしたり、それをうまく把握するための多段階計画の合成。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
トレーニングデータセットの対象となる、制限なしのオブジェクトカテゴリと言語表現を許可する。
しかしながら、人間の言語における視覚知覚と曖昧さの誤りは避けられず、ロボットの性能に悪影響を及ぼす。
これらの不確実性を克服するため、我々は学習したニューラルネットワークモジュールを統合する部分可観測マルコフ決定プロセス(pomdp)を構築した。
近似的なPOMDP計画を通じて、ロボットは観測履歴を追跡し、対象物を識別して把握する、ほぼ最適な行動列を達成するために曖昧な質問を行う。
INVIGORATEはモデルベースのPOMDP計画とデータ駆動ディープラーニングの利点を組み合わせる。
InVIGORATEによるFetchロボットの予備実験は、自然言語の相互作用を伴うクラッタにおける物体の把握に対するこの統合的アプローチの大きな利点を示している。
デモビデオはhttps://youtu.be/zYakh80SGcUで公開されている。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - PROGrasp: Pragmatic Human-Robot Communication for Object Grasping [22.182690439449278]
対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
Prograspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
論文 参考訳(メタデータ) (2023-09-14T14:45:47Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。