論文の概要: RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection
- arxiv url: http://arxiv.org/abs/2007.07051v1
- Date: Tue, 14 Jul 2020 14:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:02:18.367534
- Title: RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection
- Title(参考訳): クロスモーダル変調と選択によるRGB-D能動物体検出
- Authors: Chongyi Li and Runmin Cong and Yongri Piao and Qianqian Xu and Chen
Change Loy
- Abstract要約: 本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
- 参考スコア(独自算出の注目度): 126.4462739820643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an effective method to progressively integrate and refine the
cross-modality complementarities for RGB-D salient object detection (SOD). The
proposed network mainly solves two challenging issues: 1) how to effectively
integrate the complementary information from RGB image and its corresponding
depth map, and 2) how to adaptively select more saliency-related features.
First, we propose a cross-modality feature modulation (cmFM) module to enhance
feature representations by taking the depth features as prior, which models the
complementary relations of RGB-D data. Second, we propose an adaptive feature
selection (AFS) module to select saliency-related features and suppress the
inferior ones. The AFS module exploits multi-modality spatial feature fusion
with the self-modality and cross-modality interdependencies of channel features
are considered. Third, we employ a saliency-guided position-edge attention
(sg-PEA) module to encourage our network to focus more on saliency-related
regions. The above modules as a whole, called cmMS block, facilitates the
refinement of saliency features in a coarse-to-fine fashion. Coupled with a
bottom-up inference, the refined saliency features enable accurate and
edge-preserving SOD. Extensive experiments demonstrate that our network
outperforms state-of-the-art saliency detectors on six popular RGB-D SOD
benchmarks.
- Abstract(参考訳): 本稿では, RGB-D salient Object Detection (SOD) において, モーダリティの相互補完性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは主に2つの課題を解決している。
1)RGB画像とその対応する深度マップからの補完情報を効果的に統合する方法、及び
2) より衛生的な特徴を適応的に選択する方法。
まず,rgb-dデータの相補関係をモデル化する奥行き特徴を予め考慮し,特徴表現を強調するクロスモダリティ特徴変調(cmfm)モジュールを提案する。
第2に,サリエンシー関連特徴を選択し,下位特徴を抑圧する適応特徴選択(afs)モジュールを提案する。
AFSモジュールは、自己モダリティとチャネル特徴の相互依存性を考慮した多モード空間的特徴融合を利用する。
第3に,saliency-guided position-edge attention(sg-pea)モジュールを使用して,ネットワークがsariency-related regionに集中するよう促す。
上記のモジュール全体であるcmMSブロック(英語版)は、粗い微細な方法での塩分濃度特性の洗練を促進する。
ボトムアップ推論と組み合わせて、改良されたサリエンシ機能は正確かつエッジ保存のSODを可能にする。
大規模な実験により、我々のネットワークは6つのRGB-D SODベンチマークで最先端の精度検出器より優れていることが示された。
関連論文リスト
- Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。