論文の概要: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2403.02148v1
- Date: Mon, 4 Mar 2024 15:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:19:15.393894
- Title: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- Title(参考訳): MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
- Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu,
Jieping Ye, Nenghai Yu
- Abstract要約: 赤外線小ターゲット検出(ISTD)アルゴリズムは大きな進歩を遂げた。
畳み込みネットワークとトランスフォーマーを組み合わせた構造は、局所的特徴と大域的特徴の両方をうまく抽出することができる。
長距離モデリングのための線形複雑度を持つ最近の基本モデルに着想を得て, ISTDにおける状態空間モデルの可能性を探る。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
- 参考スコア(独自算出の注目度): 76.21293341906674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the development of basic models, infrared small target detection
(ISTD) algorithms have made significant progress. Specifically, the structures
combining convolutional networks with transformers can well extract both local
and global features. At the same time, they also inherit defects from the basic
model, e.g., the quadratic computational complexity of transformers, which
impacts efficiency. Inspired by a recent basic model with linear complexity for
long-distance modeling, called Mamba, we explore the potential of this state
space model in ISTD in this paper. However, direct application is unsuitable
since local features, which are critical to detecting small targets, cannot be
fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for
efficient ISTD. For example, we treat the local patches as "visual sentences"
and further decompose them into sub-patches as "visual words" to further
explore the locality. The interactions among each word in a given visual
sentence will be calculated with negligible computational costs. By aggregating
the word and sentence features, the representation ability of MiM-ISTD can be
significantly bolstered. Experiments on NUAA-SIRST and IRSTD-1k prove the
superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10
\times$ faster than the SOTA and reduces GPU memory usage by 73.4$\%$ per $2048
\times 2048$ image during inference, overcoming the computation$\&$memory
constraints on performing Mamba-based understanding on high-resolution infrared
images.Source code is available at https://github.com/txchen-USTC/MiM-ISTD.
- Abstract(参考訳): 基本モデルの開発により、赤外線小ターゲット検出(ISTD)アルゴリズムは大きな進歩を遂げた。
具体的には、畳み込みネットワークとトランスを結合した構造は、局所的特徴とグローバルな特徴の両方をうまく抽出することができる。
同時に、彼らは基本的なモデル、例えば変換器の2次計算複雑性から欠陥を継承し、効率に影響を及ぼす。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに着想を得て, ISTDにおけるこの状態空間モデルの可能性を探る。
しかし、小さなターゲットを検出するのに重要なローカル機能は、完全に活用できないため、直接適用は不適当である。
代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。
例えば、ローカルパッチを「視覚文」として扱い、さらにサブパッチに分解して「視覚語」として局所性をさらに探求する。
与えられた視覚文における各単語間の相互作用は、無視可能な計算コストで計算される。
単語と文の特徴を集約することにより、MiM-ISTDの表現能力を著しく向上させることができる。
NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTD は SOTA よりも 10 \times$ で、推論中の GPU メモリ使用率を 73.4$\%$ per 2048 \times 2048$ で減らし、高解像度赤外線画像に対する Mamba ベースの理解に関する$&$の制約を克服する。ソースコードは https://github.com/txchen-USTC/MiM-ISTD で入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Revealing and Mitigating the Local Pattern Shortcuts of Mamba [25.19835905377437]
この問題に対処するために,グローバルな選択モジュールをMambaモデルに導入する。
提案手法では,4M余剰パラメータの導入により,分散情報を用いたタスクにおいて,Mambaモデル(130M)が大幅な改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-21T06:42:11Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。