論文の概要: A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2007.06811v2
- Date: Wed, 15 Jul 2020 02:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:43:07.087598
- Title: A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection
- Title(参考訳): ロバストかつリアルタイムなRGB-Dサルエント物体検出のための単一ストリームネットワーク
- Authors: Xiaoqi Zhao, Lihe Zhang, Youwei Pang, Huchuan Lu, Lei Zhang
- Abstract要約: 我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
- 参考スコア(独自算出の注目度): 89.88222217065858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-D salient object detection (SOD) approaches concentrate on the
cross-modal fusion between the RGB stream and the depth stream. They do not
deeply explore the effect of the depth map itself. In this work, we design a
single stream network to directly use the depth map to guide early fusion and
middle fusion between RGB and depth, which saves the feature encoder of the
depth stream and achieves a lightweight and real-time model. We tactfully
utilize depth information from two perspectives: (1) Overcoming the
incompatibility problem caused by the great difference between modalities, we
build a single stream encoder to achieve the early fusion, which can take full
advantage of ImageNet pre-trained backbone model to extract rich and
discriminative features. (2) We design a novel depth-enhanced dual attention
module (DEDA) to efficiently provide the fore-/back-ground branches with the
spatially filtered features, which enables the decoder to optimally perform the
middle fusion. Besides, we put forward a pyramidally attended feature
extraction module (PAFE) to accurately localize the objects of different
scales. Extensive experiments demonstrate that the proposed model performs
favorably against most state-of-the-art methods under different evaluation
metrics. Furthermore, this model is 55.5\% lighter than the current lightest
model and runs at a real-time speed of 32 FPS when processing a $384 \times
384$ image.
- Abstract(参考訳): 既存の RGB-D salient Object Detection (SOD) アプローチは、RGBストリームと深度ストリームとの相互融合に集中している。
彼らは深度マップ自体の効果を深く掘り下げていない。
本研究では,RGBと深度間の早期融合と中核融合を誘導するために,深度マップを直接使用する単一ストリームネットワークを設計し,深度ストリームの特徴エンコーダを節約し,軽量かつリアルタイムなモデルを実現する。
1) モダリティ間の大きな差に起因する非互換性問題を克服し, 1 つのストリームエンコーダを構築して初期融合を実現し,imagenet の事前学習したバックボーンモデルを最大限活用し,リッチで判別的な特徴を抽出する。
2) 深度強調二重注意モジュール (DEDA) を設計し, 空間的にフィルタされた特徴を持つ前/後ろの分岐を効率よく提供し, 復号器の中間核融合を最適に行えるようにした。
さらに,異なるスケールのオブジェクトを正確にローカライズするために,ピラミッド型特徴抽出モジュール(PAFE)を作成した。
広範囲な実験により,提案手法は評価基準の異なるほとんどの最先端手法に対して好適に機能することが示された。
さらに、このモデルは現在の最も軽量なモデルよりも55.5\%軽く、32 FPSのリアルタイム速度で384 \times 384$画像を処理する。
関連論文リスト
- RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。