論文の概要: RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention
- arxiv url: http://arxiv.org/abs/2302.14264v1
- Date: Tue, 28 Feb 2023 02:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:24:59.225385
- Title: RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention
- Title(参考訳): クロスモーダル注意による奥行き案内学習によるrgb次元把持検出
- Authors: Ran Qin, Haoxiang Ma, Boyang Gao, Di Huang
- Abstract要約: 本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
- 参考スコア(独自算出の注目度): 14.790193023912973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planar grasp detection is one of the most fundamental tasks to robotic
manipulation, and the recent progress of consumer-grade RGB-D sensors enables
delivering more comprehensive features from both the texture and shape
modalities. However, depth maps are generally of a relatively lower quality
with much stronger noise compared to RGB images, making it challenging to
acquire grasp depth and fuse multi-modal clues. To address the two issues, this
paper proposes a novel learning based approach to RGB-D grasp detection, namely
Depth Guided Cross-modal Attention Network (DGCAN). To better leverage the
geometry information recorded in the depth channel, a complete 6-dimensional
rectangle representation is adopted with the grasp depth dedicatedly considered
in addition to those defined in the common 5-dimensional one. The prediction of
the extra grasp depth substantially strengthens feature learning, thereby
leading to more accurate results. Moreover, to reduce the negative impact
caused by the discrepancy of data quality in two modalities, a Local
Cross-modal Attention (LCA) module is designed, where the depth features are
refined according to cross-modal relations and concatenated to the RGB ones for
more sufficient fusion. Extensive simulation and physical evaluations are
conducted and the experimental results highlight the superiority of the
proposed approach.
- Abstract(参考訳): 平面グリップ検出はロボット操作における最も基本的なタスクの1つであり、最近の消費者グレードのRGB-Dセンサーの進歩により、テクスチャと形状の両面からより包括的な機能を提供する。
しかし、深度マップは一般にrgb画像に比べて比較的低い品質であり、ノイズが強いため、把握深度を取得し、マルチモーダルな手がかりを融合することが困難である。
この2つの問題に対処するため,本研究では,RGB-Dグリップ検出,すなわちDGCAN(Depth Guided Cross-modal Attention Network)に対する新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、共通5次元の長方形に加えて、専用に考慮された深度深さで完全な6次元矩形表現を採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
さらに,データ品質のばらつきによる悪影響を2つのモダリティで低減するために,クロスモーダル関係に従って奥行き特性を洗練し,rgbと結合したローカルクロスモーダルアテンション(lca)モジュールを設計した。
シミュレーションと物理的評価を行い,実験結果から提案手法の優位性を明らかにする。
関連論文リスト
- Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。