論文の概要: Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework
- arxiv url: http://arxiv.org/abs/2602.01593v1
- Date: Mon, 02 Feb 2026 03:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.879169
- Title: Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework
- Title(参考訳): Samba+: より統一されたMambaベースのフレームワークによる汎用的かつ正確な有能なオブジェクト検出
- Authors: Wenzhuo Zhao, Keren Fu, Jiahao He, Xiaohong Liu, Qijun Zhao, Guangtao Zhai,
- Abstract要約: Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。
Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。
Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
- 参考スコア(独自算出の注目度): 66.2103745798444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing salient object detection (SOD) models are generally constrained by the limited receptive fields of convolutional neural networks (CNNs) and quadratic computational complexity of Transformers. Recently, the emerging state-space model, namely Mamba, has shown great potential in balancing global receptive fields and computational efficiency. As a solution, we propose Saliency Mamba (Samba), a pure Mamba-based architecture that flexibly handles various distinct SOD tasks, including RGB/RGB-D/RGB-T SOD, video SOD (VSOD), RGB-D VSOD, and visible-depth-thermal SOD. Specifically, we rethink the scanning strategy of Mamba for SOD, and introduce a saliency-guided Mamba block (SGMB) that features a spatial neighborhood scanning (SNS) algorithm to preserve the spatial continuity of salient regions. A context-aware upsampling (CAU) method is also proposed to promote hierarchical feature alignment and aggregation by modeling contextual dependencies. As one step further, to avoid the "task-specific" problem as in previous SOD solutions, we develop Samba+, which is empowered by training Samba in a multi-task joint manner, leading to a more unified and versatile model. Two crucial components that collaboratively tackle challenges encountered in input of arbitrary modalities and continual adaptation are investigated. Specifically, a hub-and-spoke graph attention (HGA) module facilitates adaptive cross-modal interactive fusion, and a modality-anchored continual learning (MACL) strategy alleviates inter-modal conflicts together with catastrophic forgetting. Extensive experiments demonstrate that Samba individually outperforms existing methods across six SOD tasks on 22 datasets with lower computational cost, whereas Samba+ achieves even superior results on these tasks and datasets by using a single trained versatile model. Additional results further demonstrate the potential of our Samba framework.
- Abstract(参考訳): 既存のサルエント物体検出(SOD)モデルは、畳み込みニューラルネットワーク(CNN)の限られた受容領域とトランスフォーマーの2次計算複雑性によって制約される。
近年,新しい状態空間モデルであるMambaは,大域的受容場と計算効率のバランスをとる大きな可能性を示している。
そこで本研究では,RGB/RGB-D/RGB-T SOD,ビデオSOD(VSOD),RGB-D VSOD,可視深熱SODなど,さまざまなSODタスクを柔軟に処理する純粋マンバベースのアーキテクチャであるSaliency Mamba(Samba)を提案する。
具体的には,SODのためのMambaの走査戦略を再考し,SGMB(Salliency-Guided Mamba Block)を導入した。
また,コンテキスト依存のモデル化による階層的特徴アライメントとアグリゲーションを促進するために,文脈認識型アップサンプリング(CAU)手法を提案する。
さらに、従来のSODソリューションのように「タスク固有の」問題を避けるために、Samba+を開発し、Samba+はマルチタスクのジョイントなトレーニングによって強化され、より統一的で汎用的なモデルへと導かれる。
任意のモダリティの入力や連続的な適応において遭遇する課題に協調的に対処する2つの重要な要素について検討した。
具体的には、ハブ・アンド・スポークグラフアテンション(HGA)モジュールは、適応的な相互モーダルな相互融合を促進し、モダリティ・アンコール型連続学習(MACL)戦略は、破滅的な忘れ込みとともに、モーダル間の衝突を緩和する。
大規模な実験では、Sambaは計算コストの低い22のデータセットで6つのSODタスクにまたがる既存のメソッドを個別に上回り、Samba+は1つのトレーニングされた汎用モデルを使用してこれらのタスクとデータセット上でさらに優れた結果を得る。
さらなる結果は、Sambaフレームワークの可能性をさらに示します。
関連論文リスト
- CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification [12.959829835589453]
我々はCross State Fusion Mamba (Camba) Networkを提案する。
具体的には、まず、マンバ構造のニーズに応じて、リモートセンシング画像情報の事前処理モジュールを設計する。
第二に、Mamba演算子に基づくクロスステートモジュールは、2つのモードの特徴を完全に融合するように創造的に設計されている。
論文 参考訳(メタデータ) (2025-08-31T03:08:34Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation [1.5136939451642137]
本稿では,CNN と Mamba を統合し,セマンティックセグメンテーションタスクを実現する新しいネットワークである Pyramid Pooling Mamba (PPMamba) を提案する。
PPMambaは最先端のモデルに比べて競争力がある。
論文 参考訳(メタデータ) (2024-09-10T08:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。