論文の概要: SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2505.23214v1
- Date: Thu, 29 May 2025 07:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.752759
- Title: SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection
- Title(参考訳): SAMamba:赤外線小ターゲット検出のための階層的視覚を用いた適応状態空間モデリング
- Authors: Wenhao Xu, Shuchen Zheng, Changwei Wang, Zherui Zhang, Chuan Ren, Rongtao Xu, Shibiao Xu,
- Abstract要約: 赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
- 参考スコア(独自算出の注目度): 12.964308630328688
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Infrared small target detection (ISTD) is vital for long-range surveillance in military, maritime, and early warning applications. ISTD is challenged by targets occupying less than 0.15% of the image and low distinguishability from complex backgrounds. Existing deep learning methods often suffer from information loss during downsampling and inefficient global context modeling. This paper presents SAMamba, a novel framework integrating SAM2's hierarchical feature learning with Mamba's selective sequence modeling. Key innovations include: (1) A Feature Selection Adapter (FS-Adapter) for efficient natural-to-infrared domain adaptation via dual-stage selection (token-level with a learnable task embedding and channel-wise adaptive transformations); (2) A Cross-Channel State-Space Interaction (CSI) module for efficient global context modeling with linear complexity using selective state space modeling; and (3) A Detail-Preserving Contextual Fusion (DPCF) module that adaptively combines multi-scale features with a gating mechanism to balance high-resolution and low-resolution feature contributions. SAMamba addresses core ISTD challenges by bridging the domain gap, maintaining fine-grained details, and efficiently modeling long-range dependencies. Experiments on NUAA-SIRST, IRSTD-1k, and NUDT-SIRST datasets show SAMamba significantly outperforms state-of-the-art methods, especially in challenging scenarios with heterogeneous backgrounds and varying target scales. Code: https://github.com/zhengshuchen/SAMamba.
- Abstract(参考訳): 赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
既存のディープラーニング手法は、ダウンサンプリングと非効率なグローバルコンテキストモデリングの間、情報損失に悩まされることが多い。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
1)2段階選択による効率的な自然対赤外線ドメイン適応のための機能選択アダプタ(FS-Adapter)、(2)選択状態空間モデリングを用いた線形複雑度のある効率的なグローバルコンテキストモデリングのためのクロスチャネル状態空間相互作用(CSI)モジュール、(3)高分解能および低分解能特徴コントリビューションのバランスをとるゲーティング機構とを適応的に結合するDetail-Preserving Contextual Fusion(DPCF)モジュール。
SAMambaはドメインギャップを埋め、きめ細かい詳細を維持し、長距離依存関係を効率的にモデリングすることで、ISTDの中核的な課題に対処する。
NUAA-SIRST、IRSTD-1k、NUDT-SIRSTデータセットの実験では、SAMambaは最先端の手法、特に異種背景と様々なターゲットスケールを持つ挑戦的なシナリオにおいて、著しく優れていた。
コード:https://github.com/zhengshuchen/SAMamba.com
関連論文リスト
- MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。