論文の概要: Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2007.14352v2
- Date: Mon, 8 Mar 2021 08:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:16:47.802791
- Title: Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection
- Title(参考訳): RGB-Dサルエント物体検出のための多レベルクロスモーダルインタラクションネットワーク
- Authors: Zhou Huang, Huai-Xin Chen, Tao Zhou, Yun-Zhi Yang and Bi-Yuan Liu
- Abstract要約: 我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
- 参考スコア(独自算出の注目度): 3.581367375462018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth cues with affluent spatial information have been proven beneficial in
boosting salient object detection (SOD), while the depth quality directly
affects the subsequent SOD performance. However, it is inevitable to obtain
some low-quality depth cues due to limitations of its acquisition devices,
which can inhibit the SOD performance. Besides, existing methods tend to
combine RGB images and depth cues in a direct fusion or a simple fusion module,
which makes they can not effectively exploit the complex correlations between
the two sources. Moreover, few methods design an appropriate module to fully
fuse multi-level features, resulting in cross-level feature interaction
insufficient. To address these issues, we propose a novel Multi-level
Cross-modal Interaction Network (MCINet) for RGB-D based SOD. Our MCI-Net
includes two key components: 1) a cross-modal feature learning network, which
is used to learn the high-level features for the RGB images and depth cues,
effectively enabling the correlations between the two sources to be exploited;
and 2) a multi-level interactive integration network, which integrates
multi-level cross-modal features to boost the SOD performance. Extensive
experiments on six benchmark datasets demonstrate the superiority of our
MCI-Net over 14 state-of-the-art methods, and validate the effectiveness of
different components in our MCI-Net. More important, our MCI-Net significantly
improves the SOD performance as well as has a higher FPS.
- Abstract(参考訳): 深度はSODの性能に直接影響を及ぼすが, 高度空間情報を持つ深度手がかりは, サリアント物体検出(SOD)の促進に有効であることが証明されている。
しかし、SOD性能を阻害できるような装置の限界のため、低品質な深度キューを取得することは避けられない。
さらに、既存の手法では、直接融合や単純な融合モジュールでRGB画像と深度キューを組み合わせる傾向があり、2つのソース間の複雑な相関を効果的に利用できない。
さらに、マルチレベル機能をフルに融合する適切なモジュールを設計する方法も少なく、結果としてクロスレベルな機能インタラクションが不十分になる。
これらの課題に対処するため、RGB-DベースのSODのためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
mci-netには2つの重要なコンポーネントがあります。
1)RGB画像と深度手がかりの高レベルな特徴を学習するために使用されるクロスモーダル特徴学習ネットワークは、2つのソース間の相関を効果的に活用する。
2)SOD性能を高めるために,多レベルクロスモーダル機能を統合する多層対話型統合ネットワーク。
6つのベンチマークデータセットに対する大規模な実験は、14の最先端メソッドよりもMCI-Netの方が優れていることを示し、MCI-Netの異なるコンポーネントの有効性を検証する。
さらに重要なことは、我々のMCI-NetはSODの性能を大幅に改善し、FPSも高いことです。
関連論文リスト
- Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。