論文の概要: VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs
- arxiv url: http://arxiv.org/abs/2406.10326v1
- Date: Fri, 14 Jun 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:52:09.685813
- Title: VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs
- Title(参考訳): VANE-Bench:会話型LMMのためのビデオ異常評価ベンチマーク
- Authors: Rohit Bharadwaj, Hanan Gani, Muzammal Naseer, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
- 参考スコア(独自算出の注目度): 64.60035916955837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent developments in Large Multi-modal Video Models (Video-LMMs) have significantly enhanced our ability to interpret and analyze video data. Despite their impressive capabilities, current Video-LMMs have not been evaluated for anomaly detection tasks, which is critical to their deployment in practical scenarios e.g., towards identifying deepfakes, manipulated video content, traffic accidents and crimes. In this paper, we introduce VANE-Bench, a benchmark designed to assess the proficiency of Video-LMMs in detecting and localizing anomalies and inconsistencies in videos. Our dataset comprises an array of videos synthetically generated using existing state-of-the-art text-to-video generation models, encompassing a variety of subtle anomalies and inconsistencies grouped into five categories: unnatural transformations, unnatural appearance, pass-through, disappearance and sudden appearance. Additionally, our benchmark features real-world samples from existing anomaly detection datasets, focusing on crime-related irregularities, atypical pedestrian behavior, and unusual events. The task is structured as a visual question-answering challenge to gauge the models' ability to accurately detect and localize the anomalies within the videos. We evaluate nine existing Video-LMMs, both open and closed sources, on this benchmarking task and find that most of the models encounter difficulties in effectively identifying the subtle anomalies. In conclusion, our research offers significant insights into the current capabilities of Video-LMMs in the realm of anomaly detection, highlighting the importance of our work in evaluating and improving these models for real-world applications. Our code and data is available at https://hananshafi.github.io/vane-benchmark/
- Abstract(参考訳): 近年の大規模マルチモーダルビデオモデル(ビデオ-LMM)の発展により,映像データの解釈・解析能力が大幅に向上した。
これらの優れた機能にもかかわらず、現在のビデオLMMは異常検出タスクには評価されていない。
本稿では,ビデオの異常や不整合の検出と位置決めにおいて,ビデオLMMの精度を評価するためのベンチマークであるVANE-Benchを紹介する。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオで構成され、様々な微妙な異常や不整合を包含し、不自然な変換、不自然な外観、パススルー、消失、突然の出現の5つのカテゴリに分類した。
さらに,本ベンチマークでは,犯罪関連異常,非定型歩行者行動,異常事象などに着目し,既存の異常検出データセットから実世界のサンプルを抽出した。
このタスクは、ビデオ内の異常を正確に検出し、ローカライズするモデルの能力を評価する視覚的質問応答チャレンジとして構成されている。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
結論として、本研究では、異常検出領域におけるビデオLMMの現在の能力に関する重要な洞察を提供し、これらのモデルを現実世界のアプリケーションに対して評価し、改善する上での作業の重要性を強調している。
私たちのコードとデータはhttps://hananshafi.github.io/vane-benchmark/で公開されています。
関連論文リスト
- MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
本稿では,新しい階層グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
提案手法は,大規模マルチモーダルモデル上での重勾配計算を回避し,従来の手法の限界を回避する。
我々のモデルは,従来のセグメンテーションベースやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A Modular and Unified Framework for Detecting and Localizing Video
Anomalies [30.83924581439373]
MOVADと呼ばれるオンラインビデオ異常検出とローカリゼーション問題に対するモジュール化された統一アプローチを提案します。
新たなトランスファーラーニングベースのプラグアンドプレイアーキテクチャ、シーケンシャルな異常検出器、検出しきい値を選択する数学的フレームワーク、ビデオ中のリアルタイムな異常事象検出に適したパフォーマンス指標から構成される。
論文 参考訳(メタデータ) (2021-03-21T04:16:51Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。