論文の概要: Language-driven Grasp Detection
- arxiv url: http://arxiv.org/abs/2406.09489v1
- Date: Thu, 13 Jun 2024 16:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:34:26.676712
- Title: Language-driven Grasp Detection
- Title(参考訳): 言語駆動型Grasp検出
- Authors: An Dinh Vuong, Minh Nhat Vu, Baoru Huang, Nghia Nguyen, Hieu Le, Thieu Vo, Anh Nguyen,
- Abstract要約: 我々は,100万以上のサンプル,3M以上のオブジェクト,1000万以上のグリーティング命令を含む,新たな言語駆動型グリーティング検出データセットを提案する。
拡散モデルに基づく言語駆動型グリップ検出手法を提案する。
提案手法は最先端の手法より優れ,現実のロボットの把握を可能にする。
- 参考スコア(独自算出の注目度): 12.78625719116471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grasp detection is a persistent and intricate challenge with various industrial applications. Recently, many methods and datasets have been proposed to tackle the grasp detection problem. However, most of them do not consider using natural language as a condition to detect the grasp poses. In this paper, we introduce Grasp-Anything++, a new language-driven grasp detection dataset featuring 1M samples, over 3M objects, and upwards of 10M grasping instructions. We utilize foundation models to create a large-scale scene corpus with corresponding images and grasp prompts. We approach the language-driven grasp detection task as a conditional generation problem. Drawing on the success of diffusion models in generative tasks and given that language plays a vital role in this task, we propose a new language-driven grasp detection method based on diffusion models. Our key contribution is the contrastive training objective, which explicitly contributes to the denoising process to detect the grasp pose given the language instructions. We illustrate that our approach is theoretically supportive. The intensive experiments show that our method outperforms state-of-the-art approaches and allows real-world robotic grasping. Finally, we demonstrate our large-scale dataset enables zero-short grasp detection and is a challenging benchmark for future work. Project website: https://airvlab.github.io/grasp-anything/
- Abstract(参考訳): グラフ検出は、様々な産業応用において、永続的で複雑な課題である。
近年,把握検出問題に対処するため,多くの手法やデータセットが提案されている。
しかし、多くは、把握ポーズを検出する条件として自然言語を使うことを考慮していない。
本稿では,Grasp-Anything++について紹介する。Grasp-Anything++は,100万以上のサンプル,3M以上のオブジェクト,1000万以上のグリップ命令を含む,新たな言語駆動型グリップ検出データセットである。
基礎モデルを用いて、対応する画像とプロンプトを把握した大規模シーンコーパスを作成する。
我々は条件生成問題として言語駆動型グリップ検出タスクにアプローチする。
生成タスクにおける拡散モデルの成功に基づいて,このタスクにおいて言語が重要な役割を担っていることを考慮し,拡散モデルに基づく新たな言語駆動型把握検出手法を提案する。
我々の重要な貢献は対照的な学習目標であり、言語命令が与えられた握りポーズを検出するための認知プロセスに明示的に寄与する。
我々は、我々のアプローチが理論的に支持的であることを説明している。
集中的な実験により、我々の手法は最先端のアプローチよりも優れており、現実のロボットの把握を可能にしていることがわかった。
最後に、我々の大規模データセットがゼロショートグリップ検出を可能にすることを実証し、将来の作業において挑戦的なベンチマークとなる。
プロジェクトウェブサイト: https://airvlab.github.io/grasp-anything/
関連論文リスト
- Lightweight Language-driven Grasp Detection using Conditional Consistency Model [10.254392362201308]
本稿では,軽量拡散モデルの概念を活用する言語駆動型グリップ検出のための新しい手法を提案する。
本手法は,視覚情報やテキスト情報を効果的に符号化し,より正確で多目的な把握位置決めを可能にする。
実世界におけるロボット実験における本手法の有効性を検証し,その高速推論能力を実証する。
論文 参考訳(メタデータ) (2024-07-25T11:39:20Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。
本研究では,探索過程を近似するカスケード把握モデルを構築した。
大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:06:47Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。