論文の概要: Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2511.09352v2
- Date: Sun, 16 Nov 2025 11:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.386469
- Title: Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving Infrared Small Target Detection
- Title(参考訳): 時間差畳み込みを用いた時空間文脈学習による赤外小ターゲット検出
- Authors: Houzhang Fang, Shukai Guo, Qiuhuan Chen, Yi Chang, Luxin Yan,
- Abstract要約: 小型目標検出(IR)の移動は、無人航空機(UAV)や赤外線サーチシステムなどの実用化において重要な役割を担っている。
正確な時間的特徴モデリングは、典型的には時間的差または時間的(3D)畳み込みによって達成される、移動目標検出に不可欠である。
本稿では,正確な目標検出のための時間的特徴を効果的に抽出し,拡張する移動IRSNetを提案する。
- 参考スコア(独自算出の注目度): 25.15274799496491
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Moving infrared small target detection (IRSTD) plays a critical role in practical applications, such as surveillance of unmanned aerial vehicles (UAVs) and UAV-based search system. Moving IRSTD still remains highly challenging due to weak target features and complex background interference. Accurate spatio-temporal feature modeling is crucial for moving target detection, typically achieved through either temporal differences or spatio-temporal (3D) convolutions. Temporal difference can explicitly leverage motion cues but exhibits limited capability in extracting spatial features, whereas 3D convolution effectively represents spatio-temporal features yet lacks explicit awareness of motion dynamics along the temporal dimension. In this paper, we propose a novel moving IRSTD network (TDCNet), which effectively extracts and enhances spatio-temporal features for accurate target detection. Specifically, we introduce a novel temporal difference convolution (TDC) re-parameterization module that comprises three parallel TDC blocks designed to capture contextual dependencies across different temporal ranges. Each TDC block fuses temporal difference and 3D convolution into a unified spatio-temporal convolution representation. This re-parameterized module can effectively capture multi-scale motion contextual features while suppressing pseudo-motion clutter in complex backgrounds, significantly improving detection performance. Moreover, we propose a TDC-guided spatio-temporal attention mechanism that performs cross-attention between the spatio-temporal features from the TDC-based backbone and a parallel 3D backbone. This mechanism models their global semantic dependencies to refine the current frame's features. Extensive experiments on IRSTD-UAV and public infrared datasets demonstrate that our TDCNet achieves state-of-the-art detection performance in moving target detection.
- Abstract(参考訳): 赤外線小目標検出(IRSTD)の移動は、無人航空機(UAV)の監視やUAVベースの探索システムなど、実用上重要な役割を担っている。
IRSTDの移動は、ターゲットの弱い特徴と複雑な背景干渉のため、依然として非常に困難である。
正確な時空間特徴モデリングは、典型的には時間差または時空間(3D)畳み込みによって達成される移動目標検出に不可欠である。
3次元の畳み込みは時空間の特徴を効果的に表すが、時間次元に沿った運動のダイナミックスを明確に認識することができない。
本稿では,移動IRSTDネットワーク(TDCNet)を提案する。
具体的には,時間的差分畳み込み(TDC)再パラメータ化モジュールを提案する。
各TDCブロックは、時間差と3D畳み込みを統一された時空間畳み込み表現に融合する。
この再パラメータ化モジュールは、複雑な背景における擬似動作クラッタを抑えつつ、マルチスケール動作コンテキストの特徴を効果的に捉え、検出性能を大幅に向上させることができる。
さらに、TDCベースのバックボーンと平行3Dバックボーンの時空間特徴の相互注意を行うTDC誘導時空間注意機構を提案する。
このメカニズムは、現在のフレームの特徴を洗練させるために、グローバルなセマンティック依存関係をモデル化する。
IRSTD-UAVと公共赤外線データセットの大規模な実験により、我々のTDCNetは移動目標検出における最先端検出性能を達成できた。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。