論文の概要: UCF-Crime Annotation: A Benchmark for Surveillance Video-and-Language
Understanding
- arxiv url: http://arxiv.org/abs/2309.13925v1
- Date: Mon, 25 Sep 2023 07:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:41:26.722213
- Title: UCF-Crime Annotation: A Benchmark for Surveillance Video-and-Language
Understanding
- Title(参考訳): UCF-Crimeアノテーション: 監視ビデオと言語理解のためのベンチマーク
- Authors: Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Jian Jin, Zhenzhen Jiao
- Abstract要約: 実世界の監視データセットUCF-Crimeを手動でアノテートすることで,最初のマルチモーダル監視ビデオデータセットを構築することを提案する。
新たに注釈付きデータセットであるUCAは、マルチモーダル監視ビデオ分析のための新しいベンチマークを提供する。
ビデオの接頭辞、ビデオキャプション、濃密なビデオキャプションなどを含む、この新しく作成されたデータセット上で、複数のマルチモーダルタスクの最先端モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 8.219063271031986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surveillance videos are an essential component of daily life with various
critical applications, particularly in public security. However, current
surveillance video tasks mainly focus on classifying and localizing anomalous
events. Existing methods are limited to detecting and classifying the
predefined events with unsatisfactory generalization ability and semantic
understanding, although they have obtained considerable performance. To address
this issue, we propose constructing the first multimodal surveillance video
dataset by manually annotating the real-world surveillance dataset UCF-Crime
with fine-grained event content and timing. Our newly annotated dataset, UCA
(UCF-Crime Annotation), provides a novel benchmark for multimodal surveillance
video analysis. It not only describes events in detailed descriptions but also
provides precise temporal grounding of the events in 0.1-second intervals. UCA
contains 20,822 sentences, with an average length of 23 words, and its
annotated videos are as long as 102 hours. Furthermore, we benchmark the
state-of-the-art models of multiple multimodal tasks on this newly created
dataset, including temporal sentence grounding in videos, video captioning, and
dense video captioning. Through our experiments, we found that mainstream
models used in previously publicly available datasets perform poorly on
multimodal surveillance video scenarios, which highlights the necessity of
constructing this dataset. The link to our dataset and code is provided at:
https://github.com/Xuange923/UCA-dataset.
- Abstract(参考訳): 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。
しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。
既存の方法は、十分な性能を得たにもかかわらず、満足のいく一般化能力と意味理解を備えた事前定義された事象の検出と分類に限られている。
この問題に対処するために,実世界の監視データセットUCF-Crimeに詳細なイベント内容とタイミングを手動でアノテートすることで,最初のマルチモーダル監視ビデオデータセットを構築することを提案する。
我々の新たに注釈付きデータセットであるUCF-Crime Annotationは、マルチモーダル監視ビデオ分析のための新しいベンチマークを提供する。
詳細な記述にイベントを記述するだけでなく、0.1秒間隔のイベントの正確な時間的接地を提供する。
ucaには20,822の文があり、平均の長さは23語、注釈付きビデオは102時間である。
さらに,今回新たに作成したデータセット上で,複数のマルチモーダルタスクの最先端モデルについて,ビデオのテンポラル・センテンス・グラウンド,ビデオキャプション,高密度ビデオキャプションなどのベンチマークを行った。
実験の結果,これまで公開されているデータセットで使用されていた主流モデルは,マルチモーダル監視ビデオのシナリオでは不十分であることが判明した。
データセットとコードへのリンクは以下の通りです。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New Baseline [7.917971102697765]
監視アプリケーションにおける教師なし(US)ビデオ異常検出(VAD)の人気が高まっている。
本稿では, 複雑な監視ビデオにおける異常事象を, 完全に教師なしの方法で位置決め可能な, 異常検出のための新しいベースラインを提案する。
我々は既存のVADデータセットを変更し、我々のアプローチと2つの大規模データセット上の既存のUS SOTAメソッドを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-01T01:25:06Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A New Comprehensive Benchmark for Semi-supervised Video Anomaly
Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。
このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。
本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:20:12Z) - CHAD: Charlotte Anomaly Dataset [2.6774008509840996]
ビデオ異常検出のためのシャーロット異常データセット(CHAD)を提案する。
CHADはバウンディングボックス、アイデンティティ、各アクターのアノテーションを含む最初の異常データセットである。
4つのカメラビューと115万フレーム以上を持つCHADは、完全注釈付き異常検出データセットとしては最大である。
論文 参考訳(メタデータ) (2022-12-19T06:05:34Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Anomaly Crossing: A New Method for Video Anomaly Detection as
Cross-domain Few-shot Learning [32.0713939637202]
ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。
従来のアプローチのほとんどは、教師なしまたは半教師なしの手法で通常のビデオからのみ学習する。
本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用することで,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-12T20:49:38Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。