論文の概要: Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark
- arxiv url: http://arxiv.org/abs/2506.01466v1
- Date: Mon, 02 Jun 2025 09:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.12166
- Title: Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark
- Title(参考訳): スケーラブルなビデオ異常検索に向けて: ビデオテキストベンチマーク
- Authors: Shuyu Yang, Yilun Wang, Yaxiong Wang, Li Zhu, Zhedong Zheng,
- Abstract要約: ビデオ異常検索は、自然言語クエリを用いてビデオ内の異常事象をローカライズし、公衆の安全を促進することを目的としている。
既存のデータセットは、現実世界の異常の長い尾の性質と、大規模な収集を妨げるプライバシーの制約によって、データの不足に悩まされている。
SVTA(Synthetic Video-Text Anomaly benchmark)は,クロスモーダルな異常検索のための大規模なデータセットである。
- 参考スコア(独自算出の注目度): 26.948237287675116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly retrieval aims to localize anomalous events in videos using natural language queries to facilitate public safety. However, existing datasets suffer from severe limitations: (1) data scarcity due to the long-tail nature of real-world anomalies, and (2) privacy constraints that impede large-scale collection. To address the aforementioned issues in one go, we introduce SVTA (Synthetic Video-Text Anomaly benchmark), the first large-scale dataset for cross-modal anomaly retrieval, leveraging generative models to overcome data availability challenges. Specifically, we collect and generate video descriptions via the off-the-shelf LLM (Large Language Model) covering 68 anomaly categories, e.g., throwing, stealing, and shooting. These descriptions encompass common long-tail events. We adopt these texts to guide the video generative model to produce diverse and high-quality videos. Finally, our SVTA involves 41,315 videos (1.36M frames) with paired captions, covering 30 normal activities, e.g., standing, walking, and sports, and 68 anomalous events, e.g., falling, fighting, theft, explosions, and natural disasters. We adopt three widely-used video-text retrieval baselines to comprehensively test our SVTA, revealing SVTA's challenging nature and its effectiveness in evaluating a robust cross-modal retrieval method. SVTA eliminates privacy risks associated with real-world anomaly collection while maintaining realistic scenarios. The dataset demo is available at: [https://svta-mm.github.io/SVTA.github.io/].
- Abstract(参考訳): ビデオ異常検索は、自然言語クエリを用いてビデオ内の異常事象をローカライズし、公衆の安全を促進することを目的としている。
しかし、既存のデータセットは、(1)現実世界の異常の長期的性質によるデータの不足、(2)大規模な収集を妨げるプライバシーの制約など、厳しい制約に悩まされている。
上記の問題に対処するため,SVTA (Synthetic Video-Text Anomaly benchmark) を導入し,データ可用性の課題を克服するために生成モデルを活用する。
具体的には,68の異常カテゴリ(例えば,投げ,盗み,シューティングなど)を対象とする,既製のLLM(Large Language Model)を用いて,ビデオ記述を収集し,生成する。
これらの記述は、一般的なロングテールイベントを含んでいる。
我々はこれらのテキストを採用し、ビデオ生成モデルをガイドし、多種多様な高品質なビデオを生成する。
最後に、私たちのSVTAは、41,315の動画(1.36万フレーム)とペアキャプションを持ち、30の通常の活動、例えば、立ち上がり、歩行、スポーツ、そして68の異常な出来事、例えば、転倒、戦闘、盗難、爆発、自然災害をカバーしています。
我々は、SVTAの難易度と頑健なクロスモーダル検索手法の有効性を明らかにするために、広く使われている3つのビデオテキスト検索ベースラインを採用し、SVTAを包括的にテストした。
SVTAは現実的なシナリオを維持しながら、現実世界の異常収集に関連するプライバシーリスクを取り除く。
データセットのデモは、[https://svta-mm.github.io/SVTA.github.io/]で公開されている。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges [10.809558232493236]
本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
論文 参考訳(メタデータ) (2023-09-25T07:46:56Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Anomaly Detection in Aerial Videos with Transformers [49.011385492802674]
我々は、空中ビデオの異常検出のための新しいデータセットDroneAnomalyを作成します。
87,488色のビデオフレーム(トレーニング用51,635フレーム、テスト用35,853フレーム)があり、サイズは640×640ドル/秒である。
本稿では,連続するビデオフレームを一連のチューブレットとして扱う新しいベースラインモデルAnomaly Detection with Transformers (ANDT)を提案する。
論文 参考訳(メタデータ) (2022-09-25T21:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。