論文の概要: Language-driven Grasp Detection with Mask-guided Attention
- arxiv url: http://arxiv.org/abs/2407.19877v1
- Date: Mon, 29 Jul 2024 10:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:16:11.252952
- Title: Language-driven Grasp Detection with Mask-guided Attention
- Title(参考訳): Mask-guided Attention を用いた言語によるGrasp検出
- Authors: Tuan Van Vo, Minh Nhat Vu, Baoru Huang, An Vuong, Ngan Le, Thieu Vo, Anh Nguyen,
- Abstract要約: マスク誘導型注目を用いた言語駆動型グリップ検出手法を提案する。
提案手法では,視覚データ,セグメンテーションマスク機能,自然言語命令を統合した。
我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
- 参考スコア(独自算出の注目度): 10.231956034184265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grasp detection is an essential task in robotics with various industrial applications. However, traditional methods often struggle with occlusions and do not utilize language for grasping. Incorporating natural language into grasp detection remains a challenging task and largely unexplored. To address this gap, we propose a new method for language-driven grasp detection with mask-guided attention by utilizing the transformer attention mechanism with semantic segmentation features. Our approach integrates visual data, segmentation mask features, and natural language instructions, significantly improving grasp detection accuracy. Our work introduces a new framework for language-driven grasp detection, paving the way for language-driven robotic applications. Intensive experiments show that our method outperforms other recent baselines by a clear margin, with a 10.0% success score improvement. We further validate our method in real-world robotic experiments, confirming the effectiveness of our approach.
- Abstract(参考訳): Grasp検出は、様々な産業応用を持つロボティクスにおいて不可欠なタスクである。
しかし、伝統的な手法は隠蔽に苦しむことが多く、言語をつかむのに用いていない。
自然言語を把握検出に組み込むことは、依然として困難な課題であり、ほとんど探索されていない。
このギャップに対処するために,意味的セグメンテーション機能を備えたトランスフォーマーアテンション機構を利用して,マスク誘導型アテンションを用いた言語駆動型グリップ検出手法を提案する。
提案手法は,視覚データ,セグメンテーションマスク機能,自然言語命令を統合し,把握精度を大幅に向上させる。
我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
集中的な実験により,本手法は成功率を10.0%向上させるとともに,他の最近の基準よりも明確なマージンで優れていることが示された。
実世界のロボット実験において本手法をさらに検証し,本手法の有効性を確認した。
関連論文リスト
- Lightweight Language-driven Grasp Detection using Conditional Consistency Model [10.254392362201308]
本稿では,軽量拡散モデルの概念を活用する言語駆動型グリップ検出のための新しい手法を提案する。
本手法は,視覚情報やテキスト情報を効果的に符号化し,より正確で多目的な把握位置決めを可能にする。
実世界におけるロボット実験における本手法の有効性を検証し,その高速推論能力を実証する。
論文 参考訳(メタデータ) (2024-07-25T11:39:20Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - Language-driven Grasp Detection [12.78625719116471]
我々は,100万以上のサンプル,3M以上のオブジェクト,1000万以上のグリーティング命令を含む,新たな言語駆動型グリーティング検出データセットを提案する。
拡散モデルに基づく言語駆動型グリップ検出手法を提案する。
提案手法は最先端の手法より優れ,現実のロボットの把握を可能にする。
論文 参考訳(メタデータ) (2024-06-13T16:06:59Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Exploring Sub-skeleton Trajectories for Interpretable Recognition of
Sign Language [2.1178416840822027]
我々は手話語を正確に認識する問題について研究する。
本手法は, サブスケルトンの運動面と呼ばれる幾何学的特徴空間を探索する。
驚いたことに、我々の単純な手法は、最近の最先端のアプローチよりも手話認識を改善する。
論文 参考訳(メタデータ) (2022-02-03T03:32:28Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。