論文の概要: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2403.02148v4
- Date: Mon, 24 Jun 2024 05:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:41:44.295424
- Title: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- Title(参考訳): MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
- Authors: Tianxiang Chen, Zi Ye, Zhentao Tan, Tao Gong, Yue Wu, Qi Chu, Bin Liu, Nenghai Yu, Jieping Ye,
- Abstract要約: ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
- 参考スコア(独自算出の注目度): 72.46396769642787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, infrared small target detection (ISTD) has made significant progress, thanks to the development of basic models. Specifically, the models combining CNNs with transformers can successfully extract both local and global features. However, the disadvantage of the transformer is also inherited, i.e., the quadratic computational complexity to sequence length. Inspired by the recent basic model with linear complexity for long-distance modeling, Mamba, we explore the potential of this state space model for ISTD task in terms of effectiveness and efficiency in the paper. However, directly applying Mamba achieves suboptimal performances due to the insufficient harnessing of local features, which are imperative for detecting small targets. Instead, we tailor a nested structure, Mamba-in-Mamba (MiM-ISTD), for efficient ISTD. It consists of Outer and Inner Mamba blocks to adeptly capture both global and local features. Specifically, we treat the local patches as "visual sentences" and use the Outer Mamba to explore the global information. We then decompose each visual sentence into sub-patches as "visual words" and use the Inner Mamba to further explore the local information among words in the visual sentence with negligible computational costs. By aggregating the visual word and visual sentence features, our MiM-ISTD can effectively explore both global and local information. Experiments on NUAA-SIRST and IRSTD-1k show the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $8 \times$ faster than the SOTA method and reduces GPU memory usage by 62.2$\%$ when testing on $2048 \times 2048$ images, overcoming the computation and memory constraints on high-resolution infrared images.
- Abstract(参考訳): 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。
具体的には、CNNとトランスフォーマーを組み合わせたモデルで、局所的特徴とグローバル的特徴の両方を抽出できる。
しかし、変換器の欠点、すなわち2次計算の複雑さからシーケンス長までも受け継がれている。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。
しかし,Mambaの直接適用は,小目標検出に必須である局所的特徴の活用が不十分なため,準最適性能を実現する。
代わりに、効率的なISTDのためにネスト構造であるMamba-in-Mamba(MiM-ISTD)を調整します。
外界と内界のマンバブロックからなり、グローバルとローカルの両方の特徴を巧みに捉えている。
具体的には、ローカルパッチを「視覚文」として扱い、アウトドア・マンバを用いてグローバルな情報を探索する。
次に、各視覚文を「視覚的単語」としてサブパッチに分解し、インナー・マンバを用いて視覚文中の単語間の局所情報を無視可能な計算コストで探索する。
視覚的単語と視覚的文の特徴を集約することにより、我々のMiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTD は SOTA 法よりも 8 \times$ 速く、2048$ 2048$ の画像でテストすると、GPU のメモリ使用量を 62.2$$$% 削減し、高解像度赤外線画像の計算とメモリ制約を克服する。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Revealing and Mitigating the Local Pattern Shortcuts of Mamba [25.19835905377437]
この問題に対処するために,グローバルな選択モジュールをMambaモデルに導入する。
提案手法では,4M余剰パラメータの導入により,分散情報を用いたタスクにおいて,Mambaモデル(130M)が大幅な改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-21T06:42:11Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。