論文の概要: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance
- arxiv url: http://arxiv.org/abs/2407.13842v2
- Date: Thu, 25 Jul 2024 10:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:18:09.031884
- Title: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance
- Title(参考訳): 負のプロンプト誘導を用いた言語駆動型6-DoFグラフ検出
- Authors: Toan Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Quan Vuong, Ngan Le, Thieu Vo, Anh Nguyen,
- Abstract要約: 乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
- 参考スコア(独自算出の注目度): 13.246380364455494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 6-DoF grasp detection has been a fundamental and challenging problem in robotic vision. While previous works have focused on ensuring grasp stability, they often do not consider human intention conveyed through natural language, hindering effective collaboration between robots and users in complex 3D environments. In this paper, we present a new approach for language-driven 6-DoF grasp detection in cluttered point clouds. We first introduce Grasp-Anything-6D, a large-scale dataset for the language-driven 6-DoF grasp detection task with 1M point cloud scenes and more than 200M language-associated 3D grasp poses. We further introduce a novel diffusion model that incorporates a new negative prompt guidance learning strategy. The proposed negative prompt strategy directs the detection process toward the desired object while steering away from unwanted ones given the language input. Our method enables an end-to-end framework where humans can command the robot to grasp desired objects in a cluttered scene using natural language. Intensive experimental results show the effectiveness of our method in both benchmarking experiments and real-world scenarios, surpassing other baselines. In addition, we demonstrate the practicality of our approach in real-world robotic applications. Our project is available at https://airvlab.github.io/grasp-anything.
- Abstract(参考訳): 6-DoFグリップ検出はロボットビジョンの基本的かつ困難な問題である。
従来の研究は安定性の把握に重点を置いていたが、人間の意図が自然言語を通して伝達されることを考慮せず、複雑な3D環境でロボットとユーザの効果的なコラボレーションを妨げることが多かった。
本稿では,乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
最初にGrasp-Anything-6Dを紹介した。これは1Mポイントクラウドシーンと2億以上の言語関連3Dグリップポーズを備えた言語駆動型6-DoFグリップ検出タスクのための大規模データセットである。
さらに,新たなネガティブな指導指導戦略を取り入れた新しい拡散モデルを導入する。
提案した負のプロンプト戦略は、言語入力を与えられた不要なオブジェクトから切り離したまま、所望のオブジェクトに対して検出プロセスを指示する。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
ベンチマーク実験と実世界のシナリオの両方において,本手法が他のベースラインを上回る効果を示した。
さらに,実世界のロボット応用におけるアプローチの実践性を実証する。
私たちのプロジェクトはhttps://airvlab.github.io/grasp-anything.comで利用可能です。
関連論文リスト
- Language-driven Grasp Detection with Mask-guided Attention [10.231956034184265]
マスク誘導型注目を用いた言語駆動型グリップ検出手法を提案する。
提案手法では,視覚データ,セグメンテーションマスク機能,自然言語命令を統合した。
我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2024-07-29T10:55:17Z) - Language-driven Grasp Detection [12.78625719116471]
我々は,100万以上のサンプル,3M以上のオブジェクト,1000万以上のグリーティング命令を含む,新たな言語駆動型グリーティング検出データセットを提案する。
拡散モデルに基づく言語駆動型グリップ検出手法を提案する。
提案手法は最先端の手法より優れ,現実のロボットの把握を可能にする。
論文 参考訳(メタデータ) (2024-06-13T16:06:59Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。