論文の概要: HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness
- arxiv url: http://arxiv.org/abs/2301.07405v1
- Date: Wed, 18 Jan 2023 10:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:28:20.097005
- Title: HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness
- Title(参考訳): HiDAnet:階層的深度認識によるRGB-D能動物体検出
- Authors: Zongwei Wu, Guillaume Allibert, Fabrice Meriaudeau, Chao Ma, and
C\'edric Demonceaux
- Abstract要約: 本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
- 参考スコア(独自算出の注目度): 2.341385717236931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB-D saliency detection aims to fuse multi-modal cues to accurately localize
salient regions. Existing works often adopt attention modules for feature
modeling, with few methods explicitly leveraging fine-grained details to merge
with semantic cues. Thus, despite the auxiliary depth information, it is still
challenging for existing models to distinguish objects with similar appearances
but at distinct camera distances. In this paper, from a new perspective, we
propose a novel Hierarchical Depth Awareness network (HiDAnet) for RGB-D
saliency detection. Our motivation comes from the observation that the
multi-granularity properties of geometric priors correlate well with the neural
network hierarchies. To realize multi-modal and multi-level fusion, we first
use a granularity-based attention scheme to strengthen the discriminatory power
of RGB and depth features separately. Then we introduce a unified cross
dual-attention module for multi-modal and multi-level fusion in a
coarse-to-fine manner. The encoded multi-modal features are gradually
aggregated into a shared decoder. Further, we exploit a multi-scale loss to
take full advantage of the hierarchical information. Extensive experiments on
challenging benchmark datasets demonstrate that our HiDAnet performs favorably
over the state-of-the-art methods by large margins.
- Abstract(参考訳): RGB-Dサリエンシ検出は、多モードキューを融合してサリエント領域を正確にローカライズすることを目的としている。
既存の作業は、しばしば機能モデリングの注意モジュールを採用しており、セマンティックキューとマージするためにきめ細かい詳細を明示的に活用するメソッドはほとんどない。
したがって、補助的な深度情報にもかかわらず、既存のモデルでは類似の外観を持つがカメラ距離が異なる物体を区別することは依然として困難である。
本稿では,新しい視点から,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
マルチモーダル・マルチレベル融合を実現するために,まず粒度に着目し,rgbの識別力と深さ特性を分離して強化する。
次に,多段核融合と多段核融合のためのクロス二重アテンションモジュールを粗い方法で導入する。
符号化されたマルチモーダル機能は徐々に共有デコーダに集約される。
さらに、階層情報を完全に活用するために、マルチスケールの損失を利用する。
挑戦的なベンチマークデータセットに関する大規模な実験は、我々のHiDAnetが最先端の手法よりも大きなマージンで好適に機能していることを示している。
関連論文リスト
- AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。