Fugu-MT 論文翻訳(概要): MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection

論文の概要: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection

arxiv url: http://arxiv.org/abs/2403.02148v2
Date: Fri, 8 Mar 2024 01:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 10:50:41.561511
Title: MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
Title（参考訳）: MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Jieping Ye, Nenghai Yu
Abstract要約: 基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。 NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
参考スコア（独自算出の注目度）: 76.21293341906674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, infrared small target detection (ISTD) has made significant progress, thanks to the development of basic models. Specifically, the structures combining convolutional networks with transformers can successfully extract both local and global features. However, the disadvantage of the transformer is also inherited, i.e., the quadratic computational complexity to the length of the sequence. Inspired by the recent basic model with linear complexity for long-distance modeling, called Mamba, we explore the potential of this state space model for ISTD task in terms of effectiveness and efficiency in the paper. However, directly applying Mamba achieves poor performance since local features, which are critical to detecting small targets, cannot be fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for efficient ISTD. Specifically, we treat the local patches as "visual sentences" and use the Outer Mamba to explore the global information. We then decompose each visual sentence into sub-patches as "visual words" and use the Inner Mamba to further explore the local information among words in the visual sentence with negligible computational costs. By aggregating the word and sentence features, the MiM-ISTD can effectively explore both global and local information. Experiments on NUAA-SIRST and IRSTD-1k show the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10 \times$ faster than the SOTA method and reduces GPU memory usage by 73.4$\%$ when testing on $2048 \times 2048$ image, overcoming the computation and memory constraints on high-resolution infrared images. Source code is available at https://github.com/txchen-USTC/MiM-ISTD.
Abstract（参考訳）: 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。具体的には、畳み込みネットワークと変圧器を組み合わせた構造は、局所的特徴と大域的特徴の両方を抽出することができる。しかし、変換器の欠点、すなわちシーケンスの長さに対する二次計算の複雑さも継承される。長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。しかし,Mambaの直接適用は,小さなターゲットを検出する上で重要なローカル機能を完全に活用できないため,性能が低下する。代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。具体的には,局所パッチを"視覚文"として扱い,外マンバを用いてグローバル情報を探索する。次に,各視覚文を「視覚語」としてサブパッチに分解し,内部マンバを用いて,可視文中の単語間の局所情報を無視可能な計算コストで探索する。単語と文の特徴を集約することにより、MiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。 NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。具体的には、MiM-ISTDはSOTA法よりも10 \times$速く、2048 \times 2048$イメージでテストすると、GPUメモリ使用量を73.4$$$%削減し、高解像度赤外線画像の計算とメモリ制約を克服する。ソースコードはhttps://github.com/txchen-USTC/MiM-ISTDで入手できる。

関連論文リスト

AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection [29.004019252136565]
本稿では,グローバルな文脈情報の統合と微粒な局所的詳細情報の抽出のバランスをとる新しいモデルであるAtrousMambaを提案する。 AWVSS(Atrous window scan visual state space)モジュールを活用することで、バイナリチェンジ検出(BCD)とセマンティックチェンジ検出(SCD)のためのエンド・ツー・エンドのMambaベースのフレームワークを設計する。 6つのベンチマークデータセットの実験結果は、提案フレームワークが既存のCNNベース、Transformerベース、Mambaベースの手法より優れていることを示している。
論文参考訳（メタデータ） (2025-07-22T02:36:16Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Revealing and Mitigating the Local Pattern Shortcuts of Mamba [25.19835905377437]
この問題に対処するために,グローバルな選択モジュールをMambaモデルに導入する。提案手法では,4M余剰パラメータの導入により,分散情報を用いたタスクにおいて,Mambaモデル(130M)が大幅な改善を実現することができる。
論文参考訳（メタデータ） (2024-10-21T06:42:11Z)
V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。 2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T11:11:06Z)
UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。 UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文参考訳（メタデータ） (2024-08-21T11:53:53Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。 ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文参考訳（メタデータ） (2024-08-05T16:39:39Z)
MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。 MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文参考訳（メタデータ） (2024-04-22T05:12:11Z)
EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-15T02:48:47Z)
PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-02-16T14:56:13Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。