論文の概要: Bidirectional Temporal Information Propagation for Moving Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2508.15415v1
- Date: Thu, 21 Aug 2025 10:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.27527
- Title: Bidirectional Temporal Information Propagation for Moving Infrared Small Target Detection
- Title(参考訳): 移動赤外小ターゲット検出のための双方向時間情報伝搬
- Authors: Dengyan Luo, Yanping Xiang, Hu Wang, Luping Ji. Shuai Li, Mao Ye,
- Abstract要約: BIRDと呼ばれる,赤外線小ターゲット検出のための双方向時間情報伝搬手法を提案する。
提案手法は最先端の性能を達成するだけでなく,高速な推論速度を示す。
- 参考スコア(独自算出の注目度): 10.008911299127924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moving infrared small target detection is broadly adopted in infrared search and track systems, and has attracted considerable research focus in recent years. The existing learning-based multi-frame methods mainly aggregate the information of adjacent frames in a sliding window fashion to assist the detection of the current frame. However, the sliding-window-based methods do not consider joint optimization of the entire video clip and ignore the global temporal information outside the sliding window, resulting in redundant computation and sub-optimal performance. In this paper, we propose a Bidirectional temporal information propagation method for moving InfraRed small target Detection, dubbed BIRD. The bidirectional propagation strategy simultaneously utilizes local temporal information of adjacent frames and global temporal information of past and future frames in a recursive fashion. Specifically, in the forward and backward propagation branches, we first design a Local Temporal Motion Fusion (LTMF) module to model local spatio-temporal dependency between a target frame and its two adjacent frames. Then, a Global Temporal Motion Fusion (GTMF) module is developed to further aggregate the global propagation feature with the local fusion feature. Finally, the bidirectional aggregated features are fused and input into the detection head for detection. In addition, the entire video clip is jointly optimized by the traditional detection loss and the additional Spatio-Temporal Fusion (STF) loss. Extensive experiments demonstrate that the proposed BIRD method not only achieves the state-of-the-art performance but also shows a fast inference speed.
- Abstract(参考訳): 赤外線小目標検出は、赤外線サーチとトラックシステムにおいて広く採用されており、近年、かなりの研究が注目されている。
既存の学習ベースマルチフレーム法は、主に隣接するフレームの情報をスライドウィンドウ方式で集約し、現在のフレームの検出を支援する。
しかし、スライドウインドウに基づく手法は、ビデオクリップ全体の共同最適化を考慮せず、スライドウインドウの外側のグローバル時間情報を無視し、冗長な計算と準最適性能をもたらす。
本稿では,BIRDと呼ばれる,赤外赤外小ターゲット検出のための双方向時間情報伝搬手法を提案する。
双方向伝搬戦略は、隣接するフレームの局所時間情報と、過去のフレームと将来のフレームのグローバル時間情報とを、再帰的に同時に活用する。
具体的には,前向きおよび後向きの伝搬分岐において,まず,対象フレームと隣接する2つのフレーム間の局所時空間依存性をモデル化するための局所時間運動融合(LTMF)モジュールを設計する。
次に、グローバル時間運動融合(GTMF)モジュールを開発し、局所的な融合特徴とグローバルな伝搬特性をさらに集約する。
最後に、双方向集約された特徴を融合して検出ヘッドに入力して検出する。
さらに、ビデオクリップ全体は、従来の検出損失と追加の時空融合(STF)損失によって、共同で最適化される。
実験により,提案手法は最先端の性能を達成するだけでなく,高速な推論速度を示すことを示した。
関連論文リスト
- Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。
提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T00:42:25Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Boundary-semantic collaborative guidance network with dual-stream
feedback mechanism for salient object detection in optical remote sensing
imagery [22.21644705244091]
二重ストリームフィードバック機構を備えた境界意味協調誘導ネットワーク(BSCGNet)を提案する。
BSCGNetは、近年提案されている17の最先端(SOTA)アプローチよりも優れた、挑戦的なシナリオにおいて、明確なアドバンテージを示している。
論文 参考訳(メタデータ) (2023-03-06T03:36:06Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。