論文の概要: Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2108.01971v1
- Date: Wed, 4 Aug 2021 11:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:18:01.278167
- Title: Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection
- Title(参考訳): RGB-D Salient Object Detectionのためのクロスモーダリティ分散相互作用ネットワーク
- Authors: Chen Zhang, Runmin Cong, Qinwei Lin, Lin Ma, Feng Li, Yao Zhao, Sam
Kwong
- Abstract要約: 本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 78.47767202232298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The popularity and promotion of depth maps have brought new vigor and
vitality into salient object detection (SOD), and a mass of RGB-D SOD
algorithms have been proposed, mainly concentrating on how to better integrate
cross-modality features from RGB image and depth map. For the cross-modality
interaction in feature encoder, existing methods either indiscriminately treat
RGB and depth modalities, or only habitually utilize depth cues as auxiliary
information of the RGB branch. Different from them, we reconsider the status of
two modalities and propose a novel Cross-modality Discrepant Interaction
Network (CDINet) for RGB-D SOD, which differentially models the dependence of
two modalities according to the feature representations of different layers. To
this end, two components are designed to implement the effective cross-modality
interaction: 1) the RGB-induced Detail Enhancement (RDE) module leverages RGB
modality to enhance the details of the depth features in low-level encoder
stage. 2) the Depth-induced Semantic Enhancement (DSE) module transfers the
object positioning and internal consistency of depth features to the RGB branch
in high-level encoder stage. Furthermore, we also design a Dense Decoding
Reconstruction (DDR) structure, which constructs a semantic block by combining
multi-level encoder features to upgrade the skip connection in the feature
decoding. Extensive experiments on five benchmark datasets demonstrate that our
network outperforms $15$ state-of-the-art methods both quantitatively and
qualitatively. Our code is publicly available at:
https://rmcong.github.io/proj_CDINet.html.
- Abstract(参考訳): 深度マップの普及と普及は、新たな活力と活力をもたらし、RGB-D SODアルゴリズムの大量化が提案されており、主にRGB画像と深度マップのクロスモダリティ機能をよりよく統合する方法に焦点を当てている。
特徴エンコーダにおける相互モダリティ相互作用では、既存の手法ではRGBと深さモダリティを非差別的に扱うか、あるいはRGBブランチの補助情報としてDeep cuesのみを日常的に利用する。
それらと異なり、2つのモードの状態を再考し、異なるレイヤの特徴表現に応じて2つのモードの依存性を差分モデル化するRGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
この目的のために、2つのコンポーネントは効果的な相互モダリティ相互作用を実装するように設計されている。 1) RGB誘起詳細拡張(RDE)モジュールはRGBモダリティを活用し、低レベルエンコーダステージにおける奥行き特性の詳細を強化する。
2) Depth-induced Semantic Enhancement (DSE)モジュールは,高レベルエンコーダのRGBブランチにオブジェクト位置と奥行き特徴の内部一貫性を伝達する。
さらに、マルチレベルエンコーダ機能を組み合わせて意味ブロックを構築するDense Decoding Reconstruction (DDR) 構造を設計し、特徴復号におけるスキップ接続をアップグレードする。
5つのベンチマークデータセットに関する広範囲な実験によって、我々のネットワークは定量的にも質的にも15ドルの最先端の手法よりも優れています。
私たちのコードは、https://rmcong.github.io/proj_CDINet.htmlで公開されています。
関連論文リスト
- The Devil is in the Details: Boosting Guided Depth Super-Resolution via
Rethinking Cross-Modal Alignment and Aggregation [41.12790340577986]
誘導深度超解像(GDSR)は、同じシーンの高解像度のRGB画像を用いて、行方不明の深度の詳細を復元する。
それまでのアプローチでは、マルチモーダル入力の不均一性と相補性に苦慮し、モーダルなミスアライメント、幾何学的なミスアライメント、特徴選択といった問題を無視してきた。
論文 参考訳(メタデータ) (2024-01-16T05:37:08Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。