論文の概要: M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2109.07922v1
- Date: Thu, 16 Sep 2021 12:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:57:03.671073
- Title: M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection
- Title(参考訳): M2RNet:RGB次元高次物体検出のためのマルチモーダル・マルチスケール精製ネットワーク
- Authors: Xian Fang and Jinchao Zhu and Ruixun Zhang and Xiuli Shao and Hongpeng
Wang
- Abstract要約: RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
- 参考スコア(独自算出の注目度): 1.002712867721496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection is a fundamental topic in computer vision. Previous
methods based on RGB-D often suffer from the incompatibility of multi-modal
feature fusion and the insufficiency of multi-scale feature aggregation. To
tackle these two dilemmas, we propose a novel multi-modal and multi-scale
refined network (M2RNet). Three essential components are presented in this
network. The nested dual attention module (NDAM) explicitly exploits the
combined features of RGB and depth flows. The adjacent interactive aggregation
module (AIAM) gradually integrates the neighbor features of high, middle and
low levels. The joint hybrid optimization loss (JHOL) makes the predictions
have a prominent outline. Extensive experiments demonstrate that our method
outperforms other state-of-the-art approaches.
- Abstract(参考訳): 正当性物体検出はコンピュータビジョンの基本的なトピックである。
従来のRGB-Dに基づく手法では,マルチモーダルな特徴融合の不整合や,マルチスケールな特徴集約の不整合に悩まされることが多い。
これら2つのジレンマに対処するために,新しいマルチモーダル・マルチスケール改良ネットワーク (M2RNet) を提案する。
このネットワークには3つの重要な要素がある。
nested dual attention module (ndam) は rgb と depth flow の複合機能を明示的に活用している。
隣り合うインタラクティブアグリゲーションモジュール(AIAM)は、ハイレベル、ミドルレベル、ローレベルの隣り合う特徴を徐々に統合する。
ジョイントハイブリッド最適化損失(jhol)は、予測に顕著な概要を持つ。
広範な実験により,本手法は他の最先端手法よりも優れていることが証明された。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z) - Multi-interactive Dual-decoder for RGB-thermal Salient Object Detection [37.79290349045164]
RGB-thermal Salient Object Detection (SOD)は、可視画像とそれに対応する熱赤外画像の共通する顕著な領域を分割することを目的としている。
既存の手法では、異なるモダリティの相補性のポテンシャルや、画像内容の多種類の手がかりを十分に探求し、活用することができない。
高精度なRGBT SODのためのマルチタイプインタラクションをマイニングし,モデル化するためのマルチインタラクティブなデュアルデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-05T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。