論文の概要: LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection
- arxiv url: http://arxiv.org/abs/2509.18683v1
- Date: Tue, 23 Sep 2025 06:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.722822
- Title: LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection
- Title(参考訳): LEAF-Mamba:RGB-Dサルエント物体検出のための局所強調および適応核融合状態モデル
- Authors: Lanhu Wu, Zilin Gao, Hao Fei, Mong-Li Lee, Wynne Hsu,
- Abstract要約: RGB-D Salient Object Detection (SOD) は、奥行きの手がかりを取り入れたシーンにおいて、最も顕著な物体を特定することを目的としている。
既存の手法は主にCNNに依存しており、局所的な受容場や2次複雑さのコストに悩まされる視覚変換器に制限されている。
本稿では,2つの新しい成分を含む局所強調・適応核融合状態空間モデル(LEAF-Mamba)を提案する。
- 参考スコア(独自算出の注目度): 31.453313049462718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB-D salient object detection (SOD) aims to identify the most conspicuous objects in a scene with the incorporation of depth cues. Existing methods mainly rely on CNNs, limited by the local receptive fields, or Vision Transformers that suffer from the cost of quadratic complexity, posing a challenge in balancing performance and computational efficiency. Recently, state space models (SSM), Mamba, have shown great potential for modeling long-range dependency with linear complexity. However, directly applying SSM to RGB-D SOD may lead to deficient local semantics as well as the inadequate cross-modality fusion. To address these issues, we propose a Local Emphatic and Adaptive Fusion state space model (LEAF-Mamba) that contains two novel components: 1) a local emphatic state space module (LE-SSM) to capture multi-scale local dependencies for both modalities. 2) an SSM-based adaptive fusion module (AFM) for complementary cross-modality interaction and reliable cross-modality integration. Extensive experiments demonstrate that the LEAF-Mamba consistently outperforms 16 state-of-the-art RGB-D SOD methods in both efficacy and efficiency. Moreover, our method can achieve excellent performance on the RGB-T SOD task, proving a powerful generalization ability.
- Abstract(参考訳): RGB-D Salient Object Detection (SOD) は、奥行きの手がかりを取り入れたシーンにおいて、最も顕著な物体を特定することを目的としている。
既存の手法は主にCNNに依存しており、局所受容場によって制限されている。あるいは視覚変換器は2次複雑さのコストに悩まされ、性能と計算効率のバランスをとるのが困難である。
近年、状態空間モデル(SSM)であるMambaは、線形複雑性を伴う長距離依存性をモデル化する大きな可能性を示している。
しかし、SSMをRGB-D SODに直接適用すると、局所的な意味論が不足し、また、モダリティ間の融合が不十分になる可能性がある。
これらの問題に対処するため、我々は2つの新しいコンポーネントを含む局所強調・適応核融合状態空間モデル(LEAF-Mamba)を提案する。
1) 局所的強調状態空間モジュール (LE-SSM) で、両方のモードに対するマルチスケールな局所的依存関係をキャプチャする。
2) SSM-based adapt fusion module (AFM) for complementary cross-modality interaction and reliable cross-modality integration。
大規模な実験により、LEAF-Mambaは16の最先端のRGB-D SOD法を有効性と効率の両方で一貫して上回っていることが示された。
さらに,本手法は,RGB-T SODタスクにおいて優れた性能を実現し,強力な一般化能力を示す。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation [31.147154902692748]
RGBと熱データの統合により、フィールドロボットの野生環境におけるセマンティックセグメンテーション性能が大幅に向上する。
本稿では,SSM(クロスモーダル状態空間モデリング)アプローチを利用した効率的なRGB-熱的セマンティックセマンティックセグメンテーションアーキテクチャであるCM-SSMを紹介する。
CM-SSMは、より少ないパラメータと少ない計算コストでCARTデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-22T01:53:11Z) - SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:55:23Z) - Dual Mutual Learning Network with Global-local Awareness for RGB-D Salient Object Detection [10.353412441955436]
本研究では,グローバルな相互学習ネットワークであるGL-DMNetを提案する。
異なるモード間の相互依存性を利用するために,位置相互融合モジュールとチャネル相互融合モジュールを提案する。
提案するGL-DMNetは, 24 RGB-D SOD法よりも優れた性能を示し, 平均3%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-03T05:37:54Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。