論文の概要: FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.11254v1
- Date: Fri, 16 Jan 2026 13:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.491655
- Title: FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection
- Title(参考訳): FTDMamba:無人航空機ビデオ異常検出のための周波数補助時間拡張マンバ
- Authors: Cheng-Zhuang Liu, Si-Bao Chen, Qing-Ling Shu, Chris Ding, Jin Tang, Bin Luo,
- Abstract要約: UAVビデオは、オブジェクトの動きとUAVが引き起こしたグローバルな動きが絡み合っているマルチソースのモーションカップリングを示す。
本稿では,UAV異常検出のための周波数支援時間拡張マンバネットワークを提案する。
我々は,12種類の異常種別240件の異常種別を含む222件のフレームからなる大規模移動型UAVVADデータセットを構築した。
- 参考スコア(独自算出の注目度): 19.553240640887992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video anomaly detection (VAD) mainly focus on ground-based surveillance or unmanned aerial vehicle (UAV) videos with static backgrounds, whereas research on UAV videos with dynamic backgrounds remains limited. Unlike static scenarios, dynamically captured UAV videos exhibit multi-source motion coupling, where the motion of objects and UAV-induced global motion are intricately intertwined. Consequently, existing methods may misclassify normal UAV movements as anomalies or fail to capture true anomalies concealed within dynamic backgrounds. Moreover, many approaches do not adequately address the joint modeling of inter-frame continuity and local spatial correlations across diverse temporal scales. To overcome these limitations, we propose the Frequency-Assisted Temporal Dilation Mamba (FTDMamba) network for UAV VAD, including two core components: (1) a Frequency Decoupled Spatiotemporal Correlation Module, which disentangles coupled motion patterns and models global spatiotemporal dependencies through frequency analysis; and (2) a Temporal Dilation Mamba Module, which leverages Mamba's sequence modeling capability to jointly learn fine-grained temporal dynamics and local spatial structures across multiple temporal receptive fields. Additionally, unlike existing UAV VAD datasets which focus on static backgrounds, we construct a large-scale Moving UAV VAD dataset (MUVAD), comprising 222,736 frames with 240 anomaly events across 12 anomaly types. Extensive experiments demonstrate that FTDMamba achieves state-of-the-art (SOTA) performance on two public static benchmarks and the new MUVAD dataset. The code and MUVAD dataset will be available at: https://github.com/uavano/FTDMamba.
- Abstract(参考訳): ビデオ異常検出(VAD)の最近の進歩は、地上監視や無人航空機(UAV)のビデオに静的な背景があるのに対して、ダイナミックな背景を持つUAVビデオの研究は限られている。
静的なシナリオとは異なり、ダイナミックにキャプチャされたUAVビデオは、オブジェクトの動きとUAVが引き起こしたグローバルな動きが複雑に絡み合うマルチソースのモーションカップリングを示す。
その結果、既存の方法では、通常のUAV動作を異常と誤分類したり、動的背景に隠された真の異常を捉えなかったりすることができる。
さらに, フレーム間連続性と局所空間相関の連成モデリングを多種多様な時間スケールで適切に解決する手法は多くない。
これらの制限を克服するため,UAV VADのためのFTDMambaネットワークを提案し,(1)周波数非結合時空間相関モジュール,(2)周波数解析による大域時空間依存性の解離を図った時空間相関モジュール,(2)マンバのシーケンスモデリング機能を活用して,複数の時間的受容領域をまたいだ微粒な時間的ダイナミクスと局所空間構造を共同学習するテンポラル・ディレーション・マンバモジュールを提案する。
さらに、静的な背景に焦点を当てた既存のUAV VADデータセットとは異なり、12種類の異常なイベントに対して240の異常イベントを持つ222,736フレームからなる大規模移動UAV VADデータセット(MUVAD)を構築している。
FTDMambaは2つの公開静的ベンチマークと新しいMUVADデータセット上での最先端(SOTA)パフォーマンスを実現する。
コードとMUVADデータセットは、https://github.com/uavano/FTDMamba.comで提供される。
関連論文リスト
- A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Mamba-based Efficient Spatio-Frequency Motion Perception for Video Camouflaged Object Detection [15.982078102328233]
既存の物体カモフラージュ法(VCOD)は、主に外見に頼り、破壊する動きの手がかりを知覚する。
近年の研究では、周波数特性が特徴表現を強化し、出現制限を補うだけでなく、周波数エネルギーの変動を通じて運動を知覚できることが示されている。
そこで本研究では,オン周波数動作知覚に基づく新しい視覚カモフラージュ・マンバ(Vcamba)を提案する。
論文 参考訳(メタデータ) (2025-07-31T14:40:37Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - Multi-scale Spatial-temporal Interaction Network for Video Anomaly
Detection [3.113134714967787]
ビデオ異常検出(VAD)は信号処理において不可欠な課題である。
VADのためのマルチスケール空間時間相互作用ネットワーク(MSTI-Net)を提案する。
論文 参考訳(メタデータ) (2023-06-17T02:40:29Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。