論文の概要: Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions
- arxiv url: http://arxiv.org/abs/2205.04028v1
- Date: Mon, 9 May 2022 04:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 23:44:37.919286
- Title: Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions
- Title(参考訳): 言語インストラクションによる6-DoFオブジェクトのGraspカテゴリレベルオブジェクトへの学習
- Authors: Chilam Cheang, Haitao Lin, Yanwei Fu, Xiangyang Xue
- Abstract要約: 本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
- 参考スコア(独自算出の注目度): 74.63313641583602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the task of any objects grasping from the known categories
by free-form language instructions. This task demands the technique in computer
vision, natural language processing, and robotics. We bring these disciplines
together on this open challenge, which is essential to human-robot interaction.
Critically, the key challenge lies in inferring the category of objects from
linguistic instructions and accurately estimating the 6-DoF information of
unseen objects from the known classes. In contrast, previous works focus on
inferring the pose of object candidates at the instance level. This
significantly limits its applications in real-world scenarios.In this paper, we
propose a language-guided 6-DoF category-level object localization model to
achieve robotic grasping by comprehending human intention. To this end, we
propose a novel two-stage method. Particularly, the first stage grounds the
target in the RGB image through language description of names, attributes, and
spatial relations of objects. The second stage extracts and segments point
clouds from the cropped depth image and estimates the full 6-DoF object pose at
category-level. Under such a manner, our approach can locate the specific
object by following human instructions, and estimate the full 6-DoF pose of a
category-known but unseen instance which is not utilized for training the
model. Extensive experimental results show that our method is competitive with
the state-of-the-art language-conditioned grasp method. Importantly, we deploy
our approach on a physical robot to validate the usability of our framework in
real-world applications. Please refer to the supplementary for the demo videos
of our robot experiments.
- Abstract(参考訳): 本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
このタスクはコンピュータビジョン、自然言語処理、ロボット工学のテクニックを必要とする。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
重要な課題は、言語的指示からオブジェクトのカテゴリを推定し、既知のクラスから見えないオブジェクトの6-DoF情報を正確に推定することである。
対照的に、以前の研究はインスタンスレベルでオブジェクト候補のポーズを推測することに重点を置いていた。
本稿では,人間の意図を理解してロボットによる把持を実現するための,言語誘導型6自由度物体定位モデルを提案する。
そこで本研究では,新しい2段階法を提案する。
特に、第1ステージでは、オブジェクトの名前、属性、空間関係の言語記述を通じて、RGBイメージのターゲットをグラウンド化する。
第2段階は、収穫した深度画像から点雲を抽出し、全6-DoFオブジェクトをカテゴリレベルで推定する。
このような方法で,本手法では,人間の指示に従うことで特定の対象の特定が可能であり,モデルトレーニングに使用されていないカテゴリが未知のインスタンスの完全な6-DoFポーズを推定することができる。
その結果,本手法は最先端の言語条件把握手法と競合することがわかった。
重要なのは、現実世界のアプリケーションでフレームワークのユーザビリティを検証するために、私たちのアプローチを物理的ロボットにデプロイすることです。
私たちのロボット実験のデモビデオは、補足書を参照してください。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。