論文の概要: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2403.02148v1
- Date: Mon, 4 Mar 2024 15:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:19:15.393894
- Title: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
- Title(参考訳): MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
- Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu,
Jieping Ye, Nenghai Yu
- Abstract要約: 赤外線小ターゲット検出(ISTD)アルゴリズムは大きな進歩を遂げた。
畳み込みネットワークとトランスフォーマーを組み合わせた構造は、局所的特徴と大域的特徴の両方をうまく抽出することができる。
長距離モデリングのための線形複雑度を持つ最近の基本モデルに着想を得て, ISTDにおける状態空間モデルの可能性を探る。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
- 参考スコア(独自算出の注目度): 76.21293341906674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the development of basic models, infrared small target detection
(ISTD) algorithms have made significant progress. Specifically, the structures
combining convolutional networks with transformers can well extract both local
and global features. At the same time, they also inherit defects from the basic
model, e.g., the quadratic computational complexity of transformers, which
impacts efficiency. Inspired by a recent basic model with linear complexity for
long-distance modeling, called Mamba, we explore the potential of this state
space model in ISTD in this paper. However, direct application is unsuitable
since local features, which are critical to detecting small targets, cannot be
fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for
efficient ISTD. For example, we treat the local patches as "visual sentences"
and further decompose them into sub-patches as "visual words" to further
explore the locality. The interactions among each word in a given visual
sentence will be calculated with negligible computational costs. By aggregating
the word and sentence features, the representation ability of MiM-ISTD can be
significantly bolstered. Experiments on NUAA-SIRST and IRSTD-1k prove the
superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10
\times$ faster than the SOTA and reduces GPU memory usage by 73.4$\%$ per $2048
\times 2048$ image during inference, overcoming the computation$\&$memory
constraints on performing Mamba-based understanding on high-resolution infrared
images.Source code is available at https://github.com/txchen-USTC/MiM-ISTD.
- Abstract(参考訳): 基本モデルの開発により、赤外線小ターゲット検出(ISTD)アルゴリズムは大きな進歩を遂げた。
具体的には、畳み込みネットワークとトランスを結合した構造は、局所的特徴とグローバルな特徴の両方をうまく抽出することができる。
同時に、彼らは基本的なモデル、例えば変換器の2次計算複雑性から欠陥を継承し、効率に影響を及ぼす。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに着想を得て, ISTDにおけるこの状態空間モデルの可能性を探る。
しかし、小さなターゲットを検出するのに重要なローカル機能は、完全に活用できないため、直接適用は不適当である。
代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。
例えば、ローカルパッチを「視覚文」として扱い、さらにサブパッチに分解して「視覚語」として局所性をさらに探求する。
与えられた視覚文における各単語間の相互作用は、無視可能な計算コストで計算される。
単語と文の特徴を集約することにより、MiM-ISTDの表現能力を著しく向上させることができる。
NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTD は SOTA よりも 10 \times$ で、推論中の GPU メモリ使用率を 73.4$\%$ per 2048 \times 2048$ で減らし、高解像度赤外線画像に対する Mamba ベースの理解に関する$&$の制約を克服する。ソースコードは https://github.com/txchen-USTC/MiM-ISTD で入手できる。
関連論文リスト
- MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 FLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Lightweight Salient Object Detection in Optical Remote Sensing Images
via Feature Correlation [93.80710126516405]
本稿では,これらの問題に対処する軽量ORSI-SODソリューションであるCorrNetを提案する。
それぞれのコンポーネントのパラメータと計算を減らし、CorrNetは4.09Mのパラメータしか持たず、21.09GのFLOPで実行している。
2つの公開データセットの実験結果から、私たちの軽量なCorrNetは、26の最先端メソッドと比較して、競争力やパフォーマンスがさらに向上することが示された。
論文 参考訳(メタデータ) (2022-01-20T08:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。