論文の概要: AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis
- arxiv url: http://arxiv.org/abs/2503.21904v1
- Date: Thu, 27 Mar 2025 18:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:53.145701
- Title: AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis
- Title(参考訳): AssistPDA:ビデオ異常予測、検出、分析のためのオンラインビデオ監視アシスタント
- Authors: Zhiwei Yang, Chen Gao, Jing Liu, Peng Wu, Guansong Pang, Mike Zheng Shou,
- Abstract要約: AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
- 参考スコア(独自算出の注目度): 52.261173507177396
- License:
- Abstract: The rapid advancements in large language models (LLMs) have spurred growing interest in LLM-based video anomaly detection (VAD). However, existing approaches predominantly focus on video-level anomaly question answering or offline detection, ignoring the real-time nature essential for practical VAD applications. To bridge this gap and facilitate the practical deployment of LLM-based VAD, we introduce AssistPDA, the first online video anomaly surveillance assistant that unifies video anomaly prediction, detection, and analysis (VAPDA) within a single framework. AssistPDA enables real-time inference on streaming videos while supporting interactive user engagement. Notably, we introduce a novel event-level anomaly prediction task, enabling proactive anomaly forecasting before anomalies fully unfold. To enhance the ability to model intricate spatiotemporal relationships in anomaly events, we propose a Spatio-Temporal Relation Distillation (STRD) module. STRD transfers the long-term spatiotemporal modeling capabilities of vision-language models (VLMs) from offline settings to real-time scenarios. Thus it equips AssistPDA with a robust understanding of complex temporal dependencies and long-sequence memory. Additionally, we construct VAPDA-127K, the first large-scale benchmark designed for VLM-based online VAPDA. Extensive experiments demonstrate that AssistPDA outperforms existing offline VLM-based approaches, setting a new state-of-the-art for real-time VAPDA. Our dataset and code will be open-sourced to facilitate further research in the community.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、LLMベースのビデオ異常検出(VAD)への関心が高まっている。
しかし、既存のアプローチは主にビデオレベルの異常な質問応答やオフライン検出に重点を置いており、実用的なVADアプリケーションに不可欠なリアルタイムの性質を無視している。
このギャップを埋め、LLMベースのVADの実践的展開を促進するために、単一のフレームワーク内でビデオ異常予測、検出、分析(VAPDA)を統合する最初のオンラインビデオ異常監視アシスタントであるAssistPDAを導入する。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
特に,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
異常事象における複雑な時空間関係をモデル化する能力を高めるために,時空間関係蒸留(STRD)モジュールを提案する。
STRDは視覚言語モデル(VLM)の長期時空間モデリング機能をオフライン設定からリアルタイムシナリオに転送する。
したがって、AssistPDAに複雑な時間的依存関係と長いシーケンスメモリの堅牢な理解を持たせることができる。
さらに、VLMベースのオンラインVAPDA用に設計された最初の大規模ベンチマークであるVAPDA-127Kを構築した。
大規模な実験により、AssistPDAは既存のオフラインVLMベースのアプローチよりも優れており、リアルタイムVAPDAのための新しい最先端技術が設定されている。
私たちのデータセットとコードは、コミュニティのさらなる研究を促進するためにオープンソース化されます。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Video Anomaly Detection and Explanation via Large Language Models [34.52845566893497]
ビデオ異常検出(VAD)は、長距離監視ビデオのタイムライン上で異常事象をローカライズすることを目的としている。
本稿では,ビデオベース大規模言語モデル(VLLM)をVADの枠組みで実装するための先駆的な研究を行う。
本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
論文 参考訳(メタデータ) (2024-01-11T07:09:44Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Online Anomaly Detection over Live Social Video Streaming [17.73632683825434]
ソーシャルビデオ異常検出は、eコマースからeラーニングへの応用において重要な役割を果たす。
従来,ビデオ放送における異常発見手法として,異常検出手法が用いられてきた。
本稿では,ソーシャルビデオライブストリーミング上での異常を効果的に検出するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-01T23:30:45Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Adversarial Imitation Learning from Video using a State Observer [50.45370139579214]
我々は、状態オブザーバVGAIfO-SOを用いた観測から生成した視覚的逆効果という新しいアルゴリズムを導入する。
VGAIfO-SOは、新しい自己監督状態オブザーバを用いて、サンプルの非効率性に対処しようとする。
いくつかの連続制御環境において,VGAIfO-SOはビデオのみによる実演から学習において,他のifOアルゴリズムよりもサンプリング効率が高いことを示す。
論文 参考訳(メタデータ) (2022-02-01T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。