論文の概要: Selective Structured State Space for Multispectral-fused Small Target Detection
- arxiv url: http://arxiv.org/abs/2505.14043v1
- Date: Tue, 20 May 2025 07:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.868123
- Title: Selective Structured State Space for Multispectral-fused Small Target Detection
- Title(参考訳): マルチスペクトル融合小ターゲット検出のための選択的構造状態空間
- Authors: Qianqian Zhang, WeiJun Wang, Yunxing Liu, Li Zhou, Hao Zhao, Junshe An, Zihan Wang,
- Abstract要約: 高解像度リモートセンシング画像におけるターゲット検出は、小さなターゲットの認識精度が低く、計算コストが高いため、課題に直面している。
これらの計算制約に対処するために、効率性のためにMambaの線形複雑性を利用する。
我々は,拡張小型目標検出(ESTD)モジュールと畳み込み注意残差ゲート(CARG)モジュールを開発することで,マンバを強化した。
- 参考スコア(独自算出の注目度): 24.622199000121025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target detection in high-resolution remote sensing imagery faces challenges due to the low recognition accuracy of small targets and high computational costs. The computational complexity of the Transformer architecture increases quadratically with image resolution, while Convolutional Neural Networks (CNN) architectures are forced to stack deeper convolutional layers to expand their receptive fields, leading to an explosive growth in computational demands. To address these computational constraints, we leverage Mamba's linear complexity for efficiency. However, Mamba's performance declines for small targets, primarily because small targets occupy a limited area in the image and have limited semantic information. Accurate identification of these small targets necessitates not only Mamba's global attention capabilities but also the precise capture of fine local details. To this end, we enhance Mamba by developing the Enhanced Small Target Detection (ESTD) module and the Convolutional Attention Residual Gate (CARG) module. The ESTD module bolsters local attention to capture fine-grained details, while the CARG module, built upon Mamba, emphasizes spatial and channel-wise information, collectively improving the model's ability to capture distinctive representations of small targets. Additionally, to highlight the semantic representation of small targets, we design a Mask Enhanced Pixel-level Fusion (MEPF) module for multispectral fusion, which enhances target features by effectively fusing visible and infrared multimodal information.
- Abstract(参考訳): 高解像度リモートセンシング画像におけるターゲット検出は、小さなターゲットの認識精度が低く、計算コストが高いため、課題に直面している。
トランスフォーマーアーキテクチャの計算複雑性は、画像解像度とともに2次的に増大する一方、畳み込みニューラルネットワーク(CNN)アーキテクチャは、より深い畳み込み層を積み重ねて受容領域を拡大し、計算要求の爆発的な増加につながる。
これらの計算制約に対処するために、効率性のためにMambaの線形複雑性を利用する。
しかし、マンバのパフォーマンスは、主に小さなターゲットが画像内の限られた領域を占め、セマンティック情報が限られているため、小さく低下する。
これらの小さな標的の正確な識別は、マンバのグローバルな注意力だけでなく、詳細を正確に把握する必要がある。
この目的のために,拡張小型目標検出 (ESTD) モジュールと畳み込み注意残差ゲート (CARG) モジュールを開発した。
ESTDモジュールは細かな細部を捉えるために局所的な注意を喚起する一方、CARGモジュールはMamba上に構築され、空間的およびチャネル的な情報を強調し、小さなターゲットの特異な表現を捕捉するモデルの能力を総合的に改善する。
さらに,マルチスペクトル核融合のためのMask Enhanced Pixel-level Fusion (MEPF) モジュールを設計し,可視・赤外線マルチモーダル情報を効果的に融合させることにより,目標特徴を向上する。
関連論文リスト
- ARFC-WAHNet: Adaptive Receptive Field Convolution and Wavelet-Attentive Hierarchical Network for Infrared Small Target Detection [2.643590634429843]
ARFC-WAHNetは、赤外線小ターゲット検出のための適応型受容野畳み込みおよびウェーブレット減衰階層ネットワークである。
ARFC-WAHNetは、検出精度とロバスト性の両方において、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-15T09:44:23Z) - FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection [21.38164867490915]
そこで本研究では,FBRT-YOLOと呼ばれる空中画像検出用リアルタイム検出器のファミリーを提案し,検出精度と効率の相違に対処する。
FCMは、ディープネットワークにおける小さなターゲット情報の損失に起因する情報不均衡の問題を軽減することに焦点を当てている。
MKPは異なる大きさのカーネルとの畳み込みを利用して、様々なスケールのターゲット間の関係を強化する。
論文 参考訳(メタデータ) (2025-04-29T11:53:54Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.0]
本稿では、3つのキーコンポーネントを統合したMSCA-Netという新しいネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-Scale Direction-Aware Network for Infrared Small Target Detection [2.661766509317245]
赤外小目標検出は、背景とターゲットを効果的に分離することが難しい問題に直面している。
我々は、赤外線小ターゲットの高周波方向特徴を統合するためのマルチスケール方向対応ネットワーク(MSDA-Net)を提案する。
MSDA-Netは、パブリックNUDT-SIRST、SIRST、IRSTD-1kデータセット上で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2024-06-04T07:23:09Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。