論文の概要: Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection
- arxiv url: http://arxiv.org/abs/2010.05537v1
- Date: Mon, 12 Oct 2020 08:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:15:57.164874
- Title: Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection
- Title(参考訳): RGB-Dサリエンシ検出のための学習的相互注意とコントラスト
- Authors: Nian Liu, Ni Zhang, Ling Shao, Junwei Han
- Abstract要約: クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
- 参考スコア(独自算出の注目度): 145.4919781325014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to effectively fuse cross-modal information is the key problem for RGB-D
salient object detection. Early fusion and the result fusion schemes fuse RGB
and depth information at the input and output stages, respectively, hence incur
the problem of distribution gap or information loss. Many models use the
feature fusion strategy but are limited by the low-order point-to-point fusion
methods. In this paper, we propose a novel mutual attention model by fusing
attention and contexts from different modalities. We use the non-local
attention of one modality to propagate long-range contextual dependencies for
the other modality, thus leveraging complementary attention cues to perform
high-order and trilinear cross-modal interaction. We also propose to induce
contrast inference from the mutual attention and obtain a unified model.
Considering low-quality depth data may detriment the model performance, we
further propose selective attention to reweight the added depth cues. We embed
the proposed modules in a two-stream CNN for RGB-D SOD. Experimental results
have demonstrated the effectiveness of our proposed model. Moreover, we also
construct a new challenging large-scale RGB-D SOD dataset with high-quality,
thus can both promote the training and evaluation of deep models.
- Abstract(参考訳): クロスモーダル情報を効果的に融合する方法は、rgb-dサルエント物体検出の重要な問題である。
初期融合と結果融合スキームは、それぞれ入力および出力段階でRGBと深さ情報を融合することにより、分配ギャップや情報損失の問題を引き起こす。
多くのモデルは機能融合戦略を用いるが、低次点対点融合法によって制限される。
本稿では,異なるモダリティからの注意と文脈を融合して,新たな相互注意モデルを提案する。
一方のモーダリティの非局所的な注意は、他のモーダリティに対する長距離文脈依存を伝播させ、相補的な注意手段を活用して高次および三線形のクロスモーダル相互作用を行う。
また、相互の注意からコントラスト推論を誘導し、統一されたモデルを得ることを提案する。
低品質の深度データがモデル性能を損なう可能性があることを考慮し、追加の深度手がかりを再重み付けするための選択的注意を提案する。
提案するモジュールをRGB-D SOD用の2ストリームCNNに埋め込む。
実験の結果,提案モデルの有効性が示された。
さらに,高画質の大規模rgb-d sodデータセットを新たに構築することで,深層モデルのトレーニングと評価を促進できる。
関連論文リスト
- Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。