論文の概要: MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection
- arxiv url: http://arxiv.org/abs/2410.15015v1
- Date: Sat, 19 Oct 2024 07:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:50.123105
- Title: MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection
- Title(参考訳): MambaSOD: RGB-D Salient Object Detectionのためのデュアルマンバ駆動クロスモーダルフュージョンネットワーク
- Authors: Yue Zhan, Zhihong Zeng, Haijun Liu, Xiaoheng Tan, Yinli Tian,
- Abstract要約: RGB-D Salient Object Detection (SOD)の目的は、画像内の最も目立った領域を正確に特定することである。
本稿では,RGB-D SODのためのMamba-driven cross-modal fusion network,MambaSODを提案する。
- 参考スコア(独自算出の注目度): 10.848413136031025
- License:
- Abstract: The purpose of RGB-D Salient Object Detection (SOD) is to pinpoint the most visually conspicuous areas within images accurately. While conventional deep models heavily rely on CNN extractors and overlook the long-range contextual dependencies, subsequent transformer-based models have addressed the issue to some extent but introduce high computational complexity. Moreover, incorporating spatial information from depth maps has been proven effective for this task. A primary challenge of this issue is how to fuse the complementary information from RGB and depth effectively. In this paper, we propose a dual Mamba-driven cross-modal fusion network for RGB-D SOD, named MambaSOD. Specifically, we first employ a dual Mamba-driven feature extractor for both RGB and depth to model the long-range dependencies in multiple modality inputs with linear complexity. Then, we design a cross-modal fusion Mamba for the captured multi-modal features to fully utilize the complementary information between the RGB and depth features. To the best of our knowledge, this work is the first attempt to explore the potential of the Mamba in the RGB-D SOD task, offering a novel perspective. Numerous experiments conducted on six prevailing datasets demonstrate our method's superiority over sixteen state-of-the-art RGB-D SOD models. The source code will be released at https://github.com/YueZhan721/MambaSOD.
- Abstract(参考訳): RGB-D Salient Object Detection (SOD)の目的は、画像内の最も目立った領域を正確に特定することである。
従来のディープモデルはCNN抽出器に大きく依存し、長期のコンテキスト依存を無視するが、その後のトランスフォーマーベースモデルはある程度この問題に対処しているが、高い計算複雑性をもたらす。
さらに, 深度マップから空間情報を取り入れることで, この課題に有効であることが証明された。
この問題の主な課題は、RGBから補完情報を効果的に解き放つ方法である。
本稿では,RGB-D SODのためのMamba-driven cross-modal fusion network,MambaSODを提案する。
具体的には、まずRGBと深さの両方にデュアルマンバ駆動の特徴抽出器を用いて、線形複雑度を持つ複数モード入力における長距離依存性をモデル化する。
そこで我々は,RGBと深度特徴の相補的情報を完全に活用するために,捕獲したマルチモーダル特徴に対するクロスモーダル融合Mambaを設計する。
我々の知る限りでは、この研究はRGB-D SODタスクにおけるマンバの可能性を探究する最初の試みであり、新しい視点を提供する。
6つの一般的なデータセットで実施された多くの実験は、我々の手法が16の最先端RGB-D SODモデルよりも優れていることを示した。
ソースコードはhttps://github.com/YueZhan721/MambaSODで公開される。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection [15.371153771528093]
RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
論文 参考訳(メタデータ) (2021-12-02T12:48:37Z) - Modality-Guided Subnetwork for Salient Object Detection [5.491692465987937]
ほとんどのRGBDネットワークは、入力側から複数のモダリティを必要とし、それらを2ストリームの設計で別々に供給する。
本稿では、モダリティ誘導サブネットワーク(MGSnet)と呼ばれる新しい融合設計を提案する。
1)RGBデータとRGBDデータの両方で機能し、使用できない場合の深度を動的に推定する。
論文 参考訳(メタデータ) (2021-10-10T20:59:11Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。