論文の概要: DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects
- arxiv url: http://arxiv.org/abs/2408.00337v1
- Date: Thu, 1 Aug 2024 07:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:25:51.903168
- Title: DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects
- Title(参考訳): DistillGrasp: 透明物体の深度補完のための知識蒸留と特徴相関の統合
- Authors: Yiheng Huang, Junhong Chen, Nick Michiels, Muhammad Asim, Luc Claesen, Wenyin Liu,
- Abstract要約: RGB-Dカメラは透明な物体の深さを正確に捉えられない。
近年の研究では、新しい視覚的特徴を探求し、深度を再構築するための複雑なネットワークを設計する傾向にある。
本稿では,教師から学生への知識を蒸留するディスティルグラフという,効率的な深度補完ネットワークを提案する。
- 参考スコア(独自算出の注目度): 4.939414800373192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the visual properties of reflection and refraction, RGB-D cameras cannot accurately capture the depth of transparent objects, leading to incomplete depth maps. To fill in the missing points, recent studies tend to explore new visual features and design complex networks to reconstruct the depth, however, these approaches tremendously increase computation, and the correlation of different visual features remains a problem. To this end, we propose an efficient depth completion network named DistillGrasp which distillates knowledge from the teacher branch to the student branch. Specifically, in the teacher branch, we design a position correlation block (PCB) that leverages RGB images as the query and key to search for the corresponding values, guiding the model to establish correct correspondence between two features and transfer it to the transparent areas. For the student branch, we propose a consistent feature correlation module (CFCM) that retains the reliable regions of RGB images and depth maps respectively according to the consistency and adopts a CNN to capture the pairwise relationship for depth completion. To avoid the student branch only learning regional features from the teacher branch, we devise a distillation loss that not only considers the distance loss but also the object structure and edge information. Extensive experiments conducted on the ClearGrasp dataset manifest that our teacher network outperforms state-of-the-art methods in terms of accuracy and generalization, and the student network achieves competitive results with a higher speed of 48 FPS. In addition, the significant improvement in a real-world robotic grasping system illustrates the effectiveness and robustness of our proposed system.
- Abstract(参考訳): 反射と屈折の視覚特性のため、RGB-Dカメラは透明物体の深度を正確に捉えることができず、不完全な深度マップに繋がる。
欠損点を埋めるために、近年の研究では、深度を再構築するために新しい視覚的特徴と複雑なネットワークを設計する傾向があるが、これらのアプローチは計算を著しく増加させ、異なる視覚的特徴の相関が問題である。
そこで本研究では,教師ブランチから学生ブランチへの知識を蒸留する,DistillGraspというネットワークを提案する。
具体的には、教師ブランチにおいて、RGBイメージをクエリとして活用する位置相関ブロック(PCB)を設計し、対応する値を検索し、モデルに2つの特徴間の正確な対応を確立し、透明な領域に転送する。
本稿では,RGB画像と深度マップの信頼性領域をそれぞれ一貫性に従って保持する一貫した特徴相関モジュール(CFCM)を提案する。
本研究は,教師ブランチから地域的特徴のみを学習する学生ブランチを回避するため,距離損失だけでなく,対象構造やエッジ情報も考慮した蒸留損失を考案する。
ClearGraspデータセット上で行った大規模な実験により、教師ネットワークは精度と一般化の観点から最先端の手法よりも優れており、学生ネットワークはより高速な48FPSで競争結果を得ることができた。
さらに,実世界のロボット把握システムの大幅な改良は,提案システムの有効性とロバスト性を示している。
関連論文リスト
- ADU-Depth: Attention-based Distillation with Uncertainty Modeling for
Depth Estimation [11.92011909884167]
左右のイメージペアを入力として利用する教師ネットワークをトレーニングすることで,空間的手がかりを導入する。
注意適応型特徴蒸留と焦点深度適応型応答蒸留の両方をトレーニング段階で適用した。
実深度推定データセットKITTI と DrivingStereo に関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-09-26T08:12:37Z) - RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth
Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。
前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。
後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。
さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文 参考訳(メタデータ) (2023-09-01T09:11:20Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Deep Structured Instance Graph for Distilling Object Detectors [82.16270736573176]
本稿では,検出システム内の情報を利用して,検出知識の蒸留を容易にするための簡単な知識構造を提案する。
我々は,1段と2段の両方の検出器上で,多様な学生-教師ペアによるCOCOオブジェクト検出の課題に対して,新しい最先端の成果を達成した。
論文 参考訳(メタデータ) (2021-09-27T08:26:00Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for
Single Depth Super-Resolution [35.21324004883027]
既存のカラーガイド深度スーパーリゾリューション(DSR)アプローチでは、RGBイメージを構造的なガイダンスとして使用するトレーニングサンプルとしてペアのRGB-Dデータを必要とします。
トレーニング段階では,RGBと深度モダリティの両方が利用できるが,単一の深度モダリティのみが存在するターゲットデータセット上でテストを行うという,クロスモダリティの知識を初めて学習する。
具体的には、RGBイメージを入力として深度マップを推定する補助深度推定(DE)タスクを構築し、DSRタスクとDSRタスクの両方を協調的にトレーニングして性能を向上させる。
論文 参考訳(メタデータ) (2021-03-24T03:08:25Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。