論文の概要: Low-Level Matters: An Efficient Hybrid Architecture for Robust Multi-frame Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2503.02220v1
- Date: Tue, 04 Mar 2025 02:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:02.660063
- Title: Low-Level Matters: An Efficient Hybrid Architecture for Robust Multi-frame Infrared Small Target Detection
- Title(参考訳): 低レベル事項:ロバストなマルチフレーム赤外小ターゲット検出のための効率的なハイブリッドアーキテクチャ
- Authors: Zhihua Shen, Siyang Chen, Han Wang, Tongsu Zhang, Xiaohu Zhang, Xiangpeng Xu, Xia Yang,
- Abstract要約: マルチフレーム赤外線小目標検出は、低高度および海洋監視において重要な役割を果たす。
CNNとTransformerを組み合わせたハイブリッドアーキテクチャは、マルチフレームIRSTDの強化に大いに期待できる。
低レベルの機能学習ハイブリッドフレームワークを再定義する,シンプルながら強力なハイブリッドアーキテクチャであるLVNetを提案する。
- 参考スコア(独自算出の注目度): 5.048364655933007
- License:
- Abstract: Multi-frame infrared small target detection (IRSTD) plays a crucial role in low-altitude and maritime surveillance. The hybrid architecture combining CNNs and Transformers shows great promise for enhancing multi-frame IRSTD performance. In this paper, we propose LVNet, a simple yet powerful hybrid architecture that redefines low-level feature learning in hybrid frameworks for multi-frame IRSTD. Our key insight is that the standard linear patch embeddings in Vision Transformers are insufficient for capturing the scale-sensitive local features critical to infrared small targets. To address this limitation, we introduce a multi-scale CNN frontend that explicitly models local features by leveraging the local spatial bias of convolution. Additionally, we design a U-shaped video Transformer for multi-frame spatiotemporal context modeling, effectively capturing the motion characteristics of targets. Experiments on the publicly available datasets IRDST and NUDT-MIRSDT demonstrate that LVNet outperforms existing state-of-the-art methods. Notably, compared to the current best-performing method, LMAFormer, LVNet achieves an improvement of 5.63\% / 18.36\% in nIoU, while using only 1/221 of the parameters and 1/92 / 1/21 of the computational cost. Ablation studies further validate the importance of low-level representation learning in hybrid architectures. Our code and trained models are available at https://github.com/ZhihuaShen/LVNet.
- Abstract(参考訳): マルチフレーム赤外線小目標検出(IRSTD)は、低高度および海上監視において重要な役割を果たす。
CNNとTransformerを組み合わせたハイブリッドアーキテクチャは、マルチフレームIRSTDの性能向上に大いに期待できる。
本稿では,マルチフレームIRSTD用ハイブリッドフレームワークにおける低レベル特徴学習を再定義する,シンプルながら強力なハイブリッドアーキテクチャであるLVNetを提案する。
我々の重要な洞察は、ビジョントランスフォーマーに標準のリニアパッチを埋め込むことは、赤外線小ターゲットに不可欠なスケール感受性の局所的特徴を捉えるのに不十分であるということである。
この制限に対処するために,局所的な空間バイアスを利用して局所的な特徴を明示的にモデル化するマルチスケールCNNフロントエンドを導入する。
さらに、多フレーム時空間モデリングのためのU字型ビデオ変換器を設計し、ターゲットの運動特性を効果的に把握する。
公開データセット IRDST と NUDT-MIRSDT の実験では、LVNet が既存の最先端メソッドより優れていることが示されている。
特に、LMAFormer、LVNetは現在のベストパフォーマンス手法と比較して、パラメータの1/221と計算コストの1/92/1/21しか使用せず、nIoUの5.63\%/18.36\%の改善を実現している。
ハイブリッドアーキテクチャにおける低レベルの表現学習の重要性をさらに検証する。
私たちのコードとトレーニングされたモデルはhttps://github.com/ZhihuaShen/LVNet.comで公開されています。
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation [11.513054537848227]
そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
論文 参考訳(メタデータ) (2022-04-29T05:46:20Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Volterra Neural Networks (VNNs) [24.12314339259243]
本稿では,畳み込みニューラルネットワークの複雑性を低減するために,Volterraフィルタにインスパイアされたネットワークアーキテクチャを提案する。
本稿では,Volterra Neural Network(VNN)の並列実装とその性能について述べる。
提案手法は,動作認識のためのUCF-101およびHMDB-51データセットを用いて評価し,CNN手法よりも優れていた。
論文 参考訳(メタデータ) (2019-10-21T19:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。