論文の概要: RGB-D Salient Object Detection via 3D Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2101.10241v1
- Date: Mon, 25 Jan 2021 17:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:05:01.122301
- Title: RGB-D Salient Object Detection via 3D Convolutional Neural Networks
- Title(参考訳): 3次元畳み込みニューラルネットワークによるRGB-D定常物体検出
- Authors: Qian Chen, Ze Liu, Yi Zhang, Keren Fu, Qijun Zhao, Hongwei Du
- Abstract要約: 3D畳み込みニューラルネットワークによるRGB-D SODへの対処を試みます。
提案したRD3Dは、エンコーダ段階での事前融合とデコーダ段階での深部融合を目的としている。
RD3Dは4つの重要な評価指標から,14の最先端RGB-D SODアプローチに対して良好に機能することを示す。
- 参考スコア(独自算出の注目度): 19.20231385522917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D salient object detection (SOD) recently has attracted increasing
research interest and many deep learning methods based on encoder-decoder
architectures have emerged. However, most existing RGB-D SOD models conduct
feature fusion either in the single encoder or the decoder stage, which hardly
guarantees sufficient cross-modal fusion ability. In this paper, we make the
first attempt in addressing RGB-D SOD through 3D convolutional neural networks.
The proposed model, named RD3D, aims at pre-fusion in the encoder stage and
in-depth fusion in the decoder stage to effectively promote the full
integration of RGB and depth streams. Specifically, RD3D first conducts
pre-fusion across RGB and depth modalities through an inflated 3D encoder, and
later provides in-depth feature fusion by designing a 3D decoder equipped with
rich back-projection paths (RBPP) for leveraging the extensive aggregation
ability of 3D convolutions. With such a progressive fusion strategy involving
both the encoder and decoder, effective and thorough interaction between the
two modalities can be exploited and boost the detection accuracy. Extensive
experiments on six widely used benchmark datasets demonstrate that RD3D
performs favorably against 14 state-of-the-art RGB-D SOD approaches in terms of
four key evaluation metrics. Our code will be made publicly available:
https://github.com/PPOLYpubki/ RD3D.
- Abstract(参考訳): RGB-D salient Object Detection (SOD)は近年研究の関心が高まり、エンコーダ・デコーダアーキテクチャに基づく多くのディープラーニング手法が出現している。
しかし、既存のほとんどのRGB-D SODモデルは単一エンコーダまたはデコーダの段階で機能融合を行うため、十分なクロスモーダル融合能力は保証されない。
本稿では,RGB-D SODを3D畳み込みニューラルネットワークで処理する試みについて述べる。
提案したRD3Dは,エンコーダ段階での事前融合とデコーダ段階での深部融合を目標とし,RGBと深度ストリームの完全統合を効果的に促進する。
具体的には、RD3Dはまず、膨脹した3Dエンコーダを介してRGBおよび深度モダリティ間の事前融合を行い、その後、3D畳み込みの広範な集約能力を活用するために、リッチバックプロジェクションパス(RBPP)を備えた3Dデコーダを設計することにより、詳細な機能融合を提供します。
エンコーダとデコーダの両方を含むプログレッシブ融合戦略により、2つのモード間の効果的かつ徹底的な相互作用を活用でき、検出精度を高めることができる。
6つの広く使用されているベンチマークデータセットに関する広範な実験は、4つの主要な評価指標の観点から、RD3Dが14の最先端のRGB-D SODアプローチに対して有利に機能することを示しています。
コードが公開される。https://github.com/PPOLYpubki/ RD3D。
関連論文リスト
- Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文 参考訳(メタデータ) (2021-11-28T05:25:36Z) - Modality-Guided Subnetwork for Salient Object Detection [5.491692465987937]
ほとんどのRGBDネットワークは、入力側から複数のモダリティを必要とし、それらを2ストリームの設計で別々に供給する。
本稿では、モダリティ誘導サブネットワーク(MGSnet)と呼ばれる新しい融合設計を提案する。
1)RGBデータとRGBDデータの両方で機能し、使用できない場合の深度を動的に推定する。
論文 参考訳(メタデータ) (2021-10-10T20:59:11Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - BTS-Net: Bi-directional Transfer-and-Selection Network For RGB-D Salient
Object Detection [16.87553302005972]
RGB-Dの高次物体検出から得られた深度マップは、しばしば品質と不正確さに悩まされる。
ほとんどの既存のRGB-D SODモデルは、クロスモーダル相互作用を持たないか、エンコーダの段階で深さからRGBまでの一方向相互作用しか持たない。
BTS-Netと呼ばれる新しい双方向転送および選択ネットワークを提案します。BTS-Netは、符号化中に機能を浄化するために双方向転送および選択モジュールのセットを採用しています。
論文 参考訳(メタデータ) (2021-04-05T05:58:43Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。