論文の概要: HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2307.00954v1
- Date: Mon, 3 Jul 2023 11:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:20:24.130983
- Title: HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection
- Title(参考訳): HODINet:RGB-D Salient Object Detectionのための高次離散相互作用ネットワーク
- Authors: Kang Yi, Jing Xu, Xiao Jin, Fu Guo, Yan-Feng Wu
- Abstract要約: RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
- 参考スコア(独自算出の注目度): 4.007827908611563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB-D salient object detection (SOD) aims to detect the prominent regions by
jointly modeling RGB and depth information. Most RGB-D SOD methods apply the
same type of backbones and fusion modules to identically learn the
multimodality and multistage features. However, these features contribute
differently to the final saliency results, which raises two issues: 1) how to
model discrepant characteristics of RGB images and depth maps; 2) how to fuse
these cross-modality features in different stages. In this paper, we propose a
high-order discrepant interaction network (HODINet) for RGB-D SOD. Concretely,
we first employ transformer-based and CNN-based architectures as backbones to
encode RGB and depth features, respectively. Then, the high-order
representations are delicately extracted and embedded into spatial and channel
attentions for cross-modality feature fusion in different stages. Specifically,
we design a high-order spatial fusion (HOSF) module and a high-order channel
fusion (HOCF) module to fuse features of the first two and the last two stages,
respectively. Besides, a cascaded pyramid reconstruction network is adopted to
progressively decode the fused features in a top-down pathway. Extensive
experiments are conducted on seven widely used datasets to demonstrate the
effectiveness of the proposed approach. We achieve competitive performance
against 24 state-of-the-art methods under four evaluation metrics.
- Abstract(参考訳): RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
しかし、これらの機能は最終的な正当性の結果に異なる貢献をする。
1)RGB画像と深度マップの離散特性をモデル化する方法
2)これらのクロスモダリティ機能を異なる段階に融合する方法。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
具体的には、まず、RGBと奥行き機能をエンコードするバックボーンとして、トランスフォーマーベースのアーキテクチャとCNNベースのアーキテクチャを用いる。
そして、高次表現を微妙に抽出し、異なる段階における異質な特徴融合のための空間的およびチャネル的注意に埋め込む。
具体的には,高次空間融合(HOSF)モジュールと高次チャネル融合(HOCF)モジュールをそれぞれ設計し,第1段と第2段の特徴を融合させる。
さらに、カスケードピラミッド再構築ネットワークを採用して、トップダウン経路における融合特徴を段階的に復号する。
提案手法の有効性を実証するために, 広く利用されている7つのデータセットについて広範な実験を行った。
4つの評価基準の下で24の最先端手法に対する競合性能を実現する。
関連論文リスト
- Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。