論文の概要: Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges
- arxiv url: http://arxiv.org/abs/2309.13925v2
- Date: Mon, 4 Dec 2023 13:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:08:40.053448
- Title: Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges
- Title(参考訳): 監視映像・言語理解に向けて:新しいデータセット,ベースライン,課題
- Authors: Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Chen Chen, Jian Jin,
Zhenzhen Jiao
- Abstract要約: 本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
- 参考スコア(独自算出の注目度): 10.809558232493236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surveillance videos are an essential component of daily life with various
critical applications, particularly in public security. However, current
surveillance video tasks mainly focus on classifying and localizing anomalous
events. Existing methods are limited to detecting and classifying the
predefined events with unsatisfactory semantic understanding, although they
have obtained considerable performance. To address this issue, we propose a new
research direction of surveillance video-and-language understanding, and
construct the first multimodal surveillance video dataset. We manually annotate
the real-world surveillance dataset UCF-Crime with fine-grained event content
and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), contains
23,542 sentences, with an average length of 20 words, and its annotated videos
are as long as 110.7 hours. Furthermore, we benchmark SOTA models for four
multimodal tasks on this newly created dataset, which serve as new baselines
for surveillance video-and-language understanding. Through our experiments, we
find that mainstream models used in previously publicly available datasets
perform poorly on surveillance video, which demonstrates the new challenges in
surveillance video-and-language understanding. To validate the effectiveness of
our UCA, we conducted experiments on multimodal anomaly detection. The results
demonstrate that our multimodal surveillance learning can improve the
performance of conventional anomaly detection tasks. All the experiments
highlight the necessity of constructing this dataset to advance surveillance
AI. The link to our dataset is provided at:
https://xuange923.github.io/Surveillance-Video-Understanding.
- Abstract(参考訳): 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。
しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。
既存の手法は、十分な性能を得たにもかかわらず、不満足な意味理解を伴う事前定義されたイベントの検出と分類に限られている。
この問題に対処するために,監視映像と言語理解の新しい研究方向を提案し,最初のマルチモーダル監視映像データセットを構築する。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
新しい注釈付きデータセットUCA(UCF-Crime Annotation)は23,542文を含み、平均20語であり、その注釈付きビデオは110.7時間である。
さらに、新たに作成されたデータセットに基づいて、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークする。
実験の結果,従来公開されていたデータセットで使用されていた主流モデルでは,監視ビデオではパフォーマンスが悪く,監視ビデオと言語理解における新たな課題が示された。
UCAの有効性を検証するため,マルチモーダル異常検出実験を行った。
その結果,マルチモーダル監視学習は,従来の異常検出タスクの性能を向上させることができた。
すべての実験は、監視AIを前進させるためにこのデータセットを構築する必要性を強調している。
データセットへのリンクは以下の通りである。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - A New Comprehensive Benchmark for Semi-supervised Video Anomaly
Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。
このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。
本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:20:12Z) - CHAD: Charlotte Anomaly Dataset [2.6774008509840996]
ビデオ異常検出のためのシャーロット異常データセット(CHAD)を提案する。
CHADはバウンディングボックス、アイデンティティ、各アクターのアノテーションを含む最初の異常データセットである。
4つのカメラビューと115万フレーム以上を持つCHADは、完全注釈付き異常検出データセットとしては最大である。
論文 参考訳(メタデータ) (2022-12-19T06:05:34Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Anomaly Crossing: A New Method for Video Anomaly Detection as
Cross-domain Few-shot Learning [32.0713939637202]
ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。
従来のアプローチのほとんどは、教師なしまたは半教師なしの手法で通常のビデオからのみ学習する。
本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用することで,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-12T20:49:38Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。