論文の概要: Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges
- arxiv url: http://arxiv.org/abs/2309.13925v2
- Date: Mon, 4 Dec 2023 13:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:08:40.053448
- Title: Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges
- Title(参考訳): 監視映像・言語理解に向けて:新しいデータセット,ベースライン,課題
- Authors: Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Chen Chen, Jian Jin,
Zhenzhen Jiao
- Abstract要約: 本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
- 参考スコア(独自算出の注目度): 10.809558232493236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surveillance videos are an essential component of daily life with various
critical applications, particularly in public security. However, current
surveillance video tasks mainly focus on classifying and localizing anomalous
events. Existing methods are limited to detecting and classifying the
predefined events with unsatisfactory semantic understanding, although they
have obtained considerable performance. To address this issue, we propose a new
research direction of surveillance video-and-language understanding, and
construct the first multimodal surveillance video dataset. We manually annotate
the real-world surveillance dataset UCF-Crime with fine-grained event content
and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), contains
23,542 sentences, with an average length of 20 words, and its annotated videos
are as long as 110.7 hours. Furthermore, we benchmark SOTA models for four
multimodal tasks on this newly created dataset, which serve as new baselines
for surveillance video-and-language understanding. Through our experiments, we
find that mainstream models used in previously publicly available datasets
perform poorly on surveillance video, which demonstrates the new challenges in
surveillance video-and-language understanding. To validate the effectiveness of
our UCA, we conducted experiments on multimodal anomaly detection. The results
demonstrate that our multimodal surveillance learning can improve the
performance of conventional anomaly detection tasks. All the experiments
highlight the necessity of constructing this dataset to advance surveillance
AI. The link to our dataset is provided at:
https://xuange923.github.io/Surveillance-Video-Understanding.
- Abstract(参考訳): 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。
しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。
既存の手法は、十分な性能を得たにもかかわらず、不満足な意味理解を伴う事前定義されたイベントの検出と分類に限られている。
この問題に対処するために,監視映像と言語理解の新しい研究方向を提案し,最初のマルチモーダル監視映像データセットを構築する。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
新しい注釈付きデータセットUCA(UCF-Crime Annotation)は23,542文を含み、平均20語であり、その注釈付きビデオは110.7時間である。
さらに、新たに作成されたデータセットに基づいて、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークする。
実験の結果,従来公開されていたデータセットで使用されていた主流モデルでは,監視ビデオではパフォーマンスが悪く,監視ビデオと言語理解における新たな課題が示された。
UCAの有効性を検証するため,マルチモーダル異常検出実験を行った。
その結果,マルチモーダル監視学習は,従来の異常検出タスクの性能を向上させることができた。
すべての実験は、監視AIを前進させるためにこのデータセットを構築する必要性を強調している。
データセットへのリンクは以下の通りである。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New Baseline [7.917971102697765]
監視アプリケーションにおける教師なし(US)ビデオ異常検出(VAD)の人気が高まっている。
本稿では, 複雑な監視ビデオにおける異常事象を, 完全に教師なしの方法で位置決め可能な, 異常検出のための新しいベースラインを提案する。
我々は既存のVADデータセットを変更し、我々のアプローチと2つの大規模データセット上の既存のUS SOTAメソッドを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-01T01:25:06Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A New Comprehensive Benchmark for Semi-supervised Video Anomaly
Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。
このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。
本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:20:12Z) - CHAD: Charlotte Anomaly Dataset [2.6774008509840996]
ビデオ異常検出のためのシャーロット異常データセット(CHAD)を提案する。
CHADはバウンディングボックス、アイデンティティ、各アクターのアノテーションを含む最初の異常データセットである。
4つのカメラビューと115万フレーム以上を持つCHADは、完全注釈付き異常検出データセットとしては最大である。
論文 参考訳(メタデータ) (2022-12-19T06:05:34Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Anomaly Crossing: A New Method for Video Anomaly Detection as
Cross-domain Few-shot Learning [32.0713939637202]
ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。
従来のアプローチのほとんどは、教師なしまたは半教師なしの手法で通常のビデオからのみ学習する。
本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用することで,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-12T20:49:38Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。