論文の概要: MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.21449v1
- Date: Fri, 24 Oct 2025 13:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.486218
- Title: MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection
- Title(参考訳): MoniTor: オンラインビデオ異常検出の指示で大規模言語モデルを爆発させる
- Authors: Shengtian Yang, Yue Feng, Yingshi Liu, Jingrou Zhang, Jie Qin,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常な活動や行動を特定することを目的としている。
オンラインVADは、リアルタイムの制約と計算強度のためにほとんど注目されなかった。
トレーニング不要なVAD(MoniTor)のための新しいメモリベースのオンラインスコアリングキュースキームを提案する。
- 参考スコア(独自算出の注目度): 28.5803063507761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) aims to locate unusual activities or behaviors within videos. Recently, offline VAD has garnered substantial research attention, which has been invigorated by the progress in large language models (LLMs) and vision-language models (VLMs), offering the potential for a more nuanced understanding of anomalies. However, online VAD has seldom received attention due to real-time constraints and computational intensity. In this paper, we introduce a novel Memory-based online scoring queue scheme for Training-free VAD (MoniTor), to address the inherent complexities in online VAD. Specifically, MoniTor applies a streaming input to VLMs, leveraging the capabilities of pre-trained large-scale models. To capture temporal dependencies more effectively, we incorporate a novel prediction mechanism inspired by Long Short-Term Memory (LSTM) networks. This ensures the model can effectively model past states and leverage previous predictions to identify anomalous behaviors. Thereby, it better understands the current frame. Moreover, we design a scoring queue and an anomaly prior to dynamically store recent scores and cover all anomalies in the monitoring scenario, providing guidance for LLMs to distinguish between normal and abnormal behaviors over time. We evaluate MoniTor on two large datasets (i.e., UCF-Crime and XD-Violence) containing various surveillance and real-world scenarios. The results demonstrate that MoniTor outperforms state-of-the-art methods and is competitive with weakly supervised methods without training. Code is available at https://github.com/YsTvT/MoniTor.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオ内の異常な活動や行動を特定することを目的としている。
近年,大規模言語モデル (LLMs) や視覚言語モデル (VLMs) の進展によって活性化され,より曖昧な異常理解の可能性が高まっている。
しかし、リアルタイムの制約や計算強度のため、オンラインVADは注目されることはめったにない。
本稿では,トレーニング不要なVAD(MoniTor)のためのメモリベースのオンラインスコアリングキュー方式を提案する。
具体的には、MoniTorはVLMにストリーミング入力を適用し、事前訓練された大規模モデルの能力を活用する。
時間的依存関係をより効果的に捉えるために,Long Short-Term Memory (LSTM) ネットワークにインスパイアされた新しい予測機構を組み込んだ。
これにより、モデルが過去の状態を効果的にモデル化し、過去の予測を利用して異常な振る舞いを識別できる。
これにより、現在のフレームをよりよく理解できます。
さらに,最近のスコアを動的に記憶する前のスコアキューと異常を設計し,モニタリングシナリオにおけるすべての異常をカバーし,LLMが時間とともに正常な動作と異常な動作を区別するためのガイダンスを提供する。
様々な監視シナリオと実世界のシナリオを含む2つの大きなデータセット(UCF-CrimeとXD-Violence)上でMoniTorを評価する。
その結果、MoniTorは最先端の手法よりも優れており、訓練なしで弱い教師付き手法と競合していることがわかった。
コードはhttps://github.com/YsTvT/MoniTor.comで入手できる。
関連論文リスト
- AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。
これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。
本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Online Anomaly Detection over Live Social Video Streaming [17.73632683825434]
ソーシャルビデオ異常検出は、eコマースからeラーニングへの応用において重要な役割を果たす。
従来,ビデオ放送における異常発見手法として,異常検出手法が用いられてきた。
本稿では,ソーシャルビデオライブストリーミング上での異常を効果的に検出するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-01T23:30:45Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。