論文の概要: Video Anomaly Detection and Explanation via Large Language Models
- arxiv url: http://arxiv.org/abs/2401.05702v1
- Date: Thu, 11 Jan 2024 07:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:35:24.310781
- Title: Video Anomaly Detection and Explanation via Large Language Models
- Title(参考訳): 大規模言語モデルによるビデオ異常検出と説明
- Authors: Hui Lv and Qianru Sun
- Abstract要約: ビデオ異常検出(VAD)は、長距離監視ビデオのタイムライン上で異常事象をローカライズすることを目的としている。
本稿では,ビデオベース大規模言語モデル(VLLM)をVADの枠組みで実装するための先駆的な研究を行う。
本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
- 参考スコア(独自算出の注目度): 34.52845566893497
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video Anomaly Detection (VAD) aims to localize abnormal events on the
timeline of long-range surveillance videos. Anomaly-scoring-based methods have
been prevailing for years but suffer from the high complexity of thresholding
and low explanability of detection results. In this paper, we conduct pioneer
research on equipping video-based large language models (VLLMs) in the
framework of VAD, making the VAD model free from thresholds and able to explain
the reasons for the detected anomalies. We introduce a novel network module
Long-Term Context (LTC) to mitigate the incapability of VLLMs in long-range
context modeling. We design a three-phase training method to improve the
efficiency of fine-tuning VLLMs by substantially minimizing the requirements
for VAD data and lowering the costs of annotating instruction-tuning data. Our
trained model achieves the top performance on the anomaly videos of the
UCF-Crime and TAD benchmarks, with the AUC improvements of +3.86\% and +4.96\%,
respectively. More impressively, our approach can provide textual explanations
for detected anomalies.
- Abstract(参考訳): video anomaly detection (vad)は、長距離監視ビデオのタイムライン上の異常事象をローカライズすることを目的としている。
anomaly-scoring-based methodは長年にわたって普及してきたが、しきい値の複雑さと検出結果の可視性に苦しめられている。
本稿では,vadのフレームワークにビデオベースの大規模言語モデル(vllms)を装備する先駆的な研究を行い,vadモデルにしきい値がないようにし,検出された異常の理由を説明する。
本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
我々は,VLLMの微調整効率を向上させるための3相学習法を設計し,VADデータの要求を大幅に最小化し,注釈付けデータのコストを削減した。
トレーニングされたモデルは,UCF-CrimeベンチマークとTADベンチマークの異常ビデオにおいて,それぞれ+3.86\%と+4.96\%のAUC改善を達成している。
より印象的なことに、このアプローチは検出された異常に対してテキストによる説明を提供することができる。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Ada-VSR: Adaptive Video Super-Resolution with Meta-Learning [56.676110454594344]
VideoSuperResolution(Ada-SR)は、メタトランスファー学習と内部学習を通じて、それぞれ外部および内部情報を使用する。
提案手法を用いてトレーニングしたモデルでは,若干の勾配更新しか行わず,特定の映像条件に迅速に適応できるため,推論時間を大幅に短縮できる。
論文 参考訳(メタデータ) (2021-08-05T19:59:26Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - 3D ResNet with Ranking Loss Function for Abnormal Activity Detection in
Videos [6.692686655277163]
この研究は、最近の異常な活動検出の最先端の研究に動機づけられている。
時間的アノテーションがない場合、そのようなモデルは異常を検出しながら誤報をしがちである。
本稿では,異常行動検出タスクを実行しながら,誤警報率を最小化するタスクに焦点をあてる。
論文 参考訳(メタデータ) (2020-02-04T05:32:21Z) - Delving Deeper into the Decoder for Video Captioning [23.202746094988715]
ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
論文 参考訳(メタデータ) (2020-01-16T02:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。