Fugu-MT 論文翻訳(概要): Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

論文の概要: Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

arxiv url: http://arxiv.org/abs/2301.11564v1
Date: Fri, 27 Jan 2023 07:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 16:13:48.711590
Title: Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding
Title（参考訳）: パートアフォーマンスグラウンドを用いた6-DoFきめ細かい粒度検出の学習
Authors: Yaoxian Song, Penglei Sun, Yi Ren, Yu Zheng, Yue Zhang
Abstract要約: 本稿では,言語指導型SHape grAsPingデータを用いた3D学習手法を提案する。我々は、新しい2段階きめ細粒度ロボット把握ネットワーク(PIONEER)を設計する。提案手法は, 参照識別, 割当推論, 3次元部分認識の把握において, 良好な性能と効率が得られることを示す。
参考スコア（独自算出の注目度）: 20.308345257733894
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object wise, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream application. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named Lang-SHAPE) to learn 3D part-wise affordance and grasping ability. We design a novel two-stage fine-grained robotic grasping network (named PIONEER), including a novel 3D part language grounding model, and a part-aware grasp pose detection model. To evaluate the effectiveness, we perform multi-level difficulty part language grounding grasping experiments and deploy our proposed model on a real robot. Results show our method achieves satisfactory performance and efficiency in reference identification, affordance inference, and 3D part-aware grasping. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape
Abstract（参考訳）: ロボットの把持は、ロボットが環境と相互作用する基本的な能力である。現状の手法は, 物体に安定かつ信頼性のある把握ポーズを得る方法に焦点が当てられているが, きめ細かな把握とロボットの余裕に関連する部分(形状)の把握についてはほとんど研究されていない。部品は、リッチなセマンティック知識と余裕との強い相関を含むオブジェクトを構成する原子的要素と見なすことができる。しかし、大きな部分的な3Dロボットデータセットがないため、部分表現学習と下流アプリケーションの開発が制限される。本稿では,Lang-SHAPE(Lang-SHAPE)と呼ばれる,言語誘導型SHape grAsPingデータを用いた3次元分量学習手法を提案する。本研究では,新しい3次元部分言語接地モデルとパートアウェア把持ポーズ検出モデルを含む,新しい2段階ロボット把持ネットワーク(パイオニア)を設計した。この効果を評価するために,多レベル難易度部言語接地実験を行い,提案モデルを実ロボットに展開する。その結果, 参照同定, 補償推定, 3次元部品認識による把握において, 良好な性能と効率が得られた。私たちのデータセットとコードは、私たちのプロジェクトwebサイトhttps://sites.google.com/view/lang-shapeで利用可能です。

関連論文リスト

Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions [43.784500616459304]
本稿では,言語指導,視覚的観察,インタラクションに基づく3次元オブジェクトの可利用性に基づく新しいタスクを提案する。 LMAffordance3Dは,最初のマルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
論文参考訳（メタデータ） (2025-04-07T05:38:23Z)
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。 Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文参考訳（メタデータ） (2024-05-29T17:56:07Z)
Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。 Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文参考訳（メタデータ） (2024-04-30T02:48:20Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文参考訳（メタデータ） (2024-02-26T18:57:52Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文参考訳（メタデータ） (2021-07-26T23:35:58Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。