論文の概要: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2403.02148v2
- Date: Fri, 8 Mar 2024 01:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:50:41.561511
- Title: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- Title(参考訳): MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
- Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu,
Jieping Ye, Nenghai Yu
- Abstract要約: 基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
- 参考スコア(独自算出の注目度): 76.21293341906674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, infrared small target detection (ISTD) has made significant
progress, thanks to the development of basic models. Specifically, the
structures combining convolutional networks with transformers can successfully
extract both local and global features. However, the disadvantage of the
transformer is also inherited, i.e., the quadratic computational complexity to
the length of the sequence. Inspired by the recent basic model with linear
complexity for long-distance modeling, called Mamba, we explore the potential
of this state space model for ISTD task in terms of effectiveness and
efficiency in the paper. However, directly applying Mamba achieves poor
performance since local features, which are critical to detecting small
targets, cannot be fully exploited. Instead, we tailor a Mamba-in-Mamba
(MiM-ISTD) structure for efficient ISTD. Specifically, we treat the local
patches as "visual sentences" and use the Outer Mamba to explore the global
information. We then decompose each visual sentence into sub-patches as "visual
words" and use the Inner Mamba to further explore the local information among
words in the visual sentence with negligible computational costs. By
aggregating the word and sentence features, the MiM-ISTD can effectively
explore both global and local information. Experiments on NUAA-SIRST and
IRSTD-1k show the superior accuracy and efficiency of our method. Specifically,
MiM-ISTD is $10 \times$ faster than the SOTA method and reduces GPU memory
usage by 73.4$\%$ when testing on $2048 \times 2048$ image, overcoming the
computation and memory constraints on high-resolution infrared images. Source
code is available at https://github.com/txchen-USTC/MiM-ISTD.
- Abstract(参考訳): 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。
具体的には、畳み込みネットワークと変圧器を組み合わせた構造は、局所的特徴と大域的特徴の両方を抽出することができる。
しかし、変換器の欠点、すなわちシーケンスの長さに対する二次計算の複雑さも継承される。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。
しかし,Mambaの直接適用は,小さなターゲットを検出する上で重要なローカル機能を完全に活用できないため,性能が低下する。
代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。
具体的には,局所パッチを"視覚文"として扱い,外マンバを用いてグローバル情報を探索する。
次に,各視覚文を「視覚語」としてサブパッチに分解し,内部マンバを用いて,可視文中の単語間の局所情報を無視可能な計算コストで探索する。
単語と文の特徴を集約することにより、MiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。
NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTDはSOTA法よりも10 \times$速く、2048 \times 2048$イメージでテストすると、GPUメモリ使用量を73.4$$$%削減し、高解像度赤外線画像の計算とメモリ制約を克服する。
ソースコードはhttps://github.com/txchen-USTC/MiM-ISTDで入手できる。
関連論文リスト
- MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 FLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Lightweight Salient Object Detection in Optical Remote Sensing Images
via Feature Correlation [93.80710126516405]
本稿では,これらの問題に対処する軽量ORSI-SODソリューションであるCorrNetを提案する。
それぞれのコンポーネントのパラメータと計算を減らし、CorrNetは4.09Mのパラメータしか持たず、21.09GのFLOPで実行している。
2つの公開データセットの実験結果から、私たちの軽量なCorrNetは、26の最先端メソッドと比較して、競争力やパフォーマンスがさらに向上することが示された。
論文 参考訳(メタデータ) (2022-01-20T08:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。