論文の概要: Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance
Grounding
- arxiv url: http://arxiv.org/abs/2301.11564v1
- Date: Fri, 27 Jan 2023 07:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:13:48.711590
- Title: Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance
Grounding
- Title(参考訳): パートアフォーマンスグラウンドを用いた6-DoFきめ細かい粒度検出の学習
- Authors: Yaoxian Song, Penglei Sun, Yi Ren, Yu Zheng, Yue Zhang
- Abstract要約: 本稿では,言語指導型SHape grAsPingデータを用いた3D学習手法を提案する。
我々は、新しい2段階きめ細粒度ロボット把握ネットワーク(PIONEER)を設計する。
提案手法は, 参照識別, 割当推論, 3次元部分認識の把握において, 良好な性能と効率が得られることを示す。
- 参考スコア(独自算出の注目度): 20.308345257733894
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robotic grasping is a fundamental ability for a robot to interact with the
environment. Current methods focus on how to obtain a stable and reliable
grasping pose in object wise, while little work has been studied on part
(shape)-wise grasping which is related to fine-grained grasping and robotic
affordance. Parts can be seen as atomic elements to compose an object, which
contains rich semantic knowledge and a strong correlation with affordance.
However, lacking a large part-wise 3D robotic dataset limits the development of
part representation learning and downstream application. In this paper, we
propose a new large Language-guided SHape grAsPing datasEt (named Lang-SHAPE)
to learn 3D part-wise affordance and grasping ability. We design a novel
two-stage fine-grained robotic grasping network (named PIONEER), including a
novel 3D part language grounding model, and a part-aware grasp pose detection
model. To evaluate the effectiveness, we perform multi-level difficulty part
language grounding grasping experiments and deploy our proposed model on a real
robot. Results show our method achieves satisfactory performance and efficiency
in reference identification, affordance inference, and 3D part-aware grasping.
Our dataset and code are available on our project website
https://sites.google.com/view/lang-shape
- Abstract(参考訳): ロボットの把持は、ロボットが環境と相互作用する基本的な能力である。
現状の手法は, 物体に安定かつ信頼性のある把握ポーズを得る方法に焦点が当てられているが, きめ細かな把握とロボットの余裕に関連する部分(形状)の把握についてはほとんど研究されていない。
部品は、リッチなセマンティック知識と余裕との強い相関を含むオブジェクトを構成する原子的要素と見なすことができる。
しかし、大きな部分的な3Dロボットデータセットがないため、部分表現学習と下流アプリケーションの開発が制限される。
本稿では,Lang-SHAPE(Lang-SHAPE)と呼ばれる,言語誘導型SHape grAsPingデータを用いた3次元分量学習手法を提案する。
本研究では,新しい3次元部分言語接地モデルとパートアウェア把持ポーズ検出モデルを含む,新しい2段階ロボット把持ネットワーク(パイオニア)を設計した。
この効果を評価するために,多レベル難易度部言語接地実験を行い,提案モデルを実ロボットに展開する。
その結果, 参照同定, 補償推定, 3次元部品認識による把握において, 良好な性能と効率が得られた。
私たちのデータセットとコードは、私たちのプロジェクトwebサイトhttps://sites.google.com/view/lang-shapeで利用可能です。
関連論文リスト
- PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [39.174767240504714]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via
Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。
共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。
本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文 参考訳(メタデータ) (2021-04-04T05:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。