Fugu-MT 論文翻訳(概要): Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges

論文の概要: Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges

arxiv url: http://arxiv.org/abs/2309.13925v2
Date: Mon, 4 Dec 2023 13:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 22:08:40.053448
Title: Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges
Title（参考訳）: 監視映像・言語理解に向けて:新しいデータセット,ベースライン,課題
Authors: Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Chen Chen, Jian Jin, Zhenzhen Jiao
Abstract要約: 本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
参考スコア（独自算出の注目度）: 10.809558232493236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surveillance videos are an essential component of daily life with various critical applications, particularly in public security. However, current surveillance video tasks mainly focus on classifying and localizing anomalous events. Existing methods are limited to detecting and classifying the predefined events with unsatisfactory semantic understanding, although they have obtained considerable performance. To address this issue, we propose a new research direction of surveillance video-and-language understanding, and construct the first multimodal surveillance video dataset. We manually annotate the real-world surveillance dataset UCF-Crime with fine-grained event content and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), contains 23,542 sentences, with an average length of 20 words, and its annotated videos are as long as 110.7 hours. Furthermore, we benchmark SOTA models for four multimodal tasks on this newly created dataset, which serve as new baselines for surveillance video-and-language understanding. Through our experiments, we find that mainstream models used in previously publicly available datasets perform poorly on surveillance video, which demonstrates the new challenges in surveillance video-and-language understanding. To validate the effectiveness of our UCA, we conducted experiments on multimodal anomaly detection. The results demonstrate that our multimodal surveillance learning can improve the performance of conventional anomaly detection tasks. All the experiments highlight the necessity of constructing this dataset to advance surveillance AI. The link to our dataset is provided at: https://xuange923.github.io/Surveillance-Video-Understanding.
Abstract（参考訳）: 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。既存の手法は、十分な性能を得たにもかかわらず、不満足な意味理解を伴う事前定義されたイベントの検出と分類に限られている。この問題に対処するために,監視映像と言語理解の新しい研究方向を提案し,最初のマルチモーダル監視映像データセットを構築する。実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。新しい注釈付きデータセットUCA(UCF-Crime Annotation)は23,542文を含み、平均20語であり、その注釈付きビデオは110.7時間である。さらに、新たに作成されたデータセットに基づいて、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークする。実験の結果,従来公開されていたデータセットで使用されていた主流モデルでは,監視ビデオではパフォーマンスが悪く,監視ビデオと言語理解における新たな課題が示された。 UCAの有効性を検証するため,マルチモーダル異常検出実験を行った。その結果,マルチモーダル監視学習は,従来の異常検出タスクの性能を向上させることができた。すべての実験は、監視AIを前進させるためにこのデータセットを構築する必要性を強調している。データセットへのリンクは以下の通りである。

関連論文リスト

Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation by Object Tracking [90.81846867441993]
本稿では,ディープトラッカーによる個人ビデオデータの不正利用を防止するための最初の研究について述べる。時間的非学習可能な例(TUE)を生成するための新しい生成フレームワークを提案する。提案手法は,VOTモデル,データセット,時間的マッチングタスク間の転送性が強いビデオデータプライバシ保護において,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-10T07:11:33Z)
SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models [8.402075279942256]
SurveillanceVQA-589Kは、監視領域に合わせた最大規模のビデオ質問応答ベンチマークである。データセットは、認知的に多様な質問タイプにまたがる589,380のQAペアで構成されている。我々のベンチマークは、安全クリティカルなアプリケーションにおけるビデオ言語理解を促進するための実用的で包括的なリソースを提供する。
論文参考訳（メタデータ） (2025-05-19T00:57:04Z)
MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文参考訳（メタデータ） (2024-06-27T01:09:07Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New Baseline [7.917971102697765]
監視アプリケーションにおける教師なし(US)ビデオ異常検出(VAD)の人気が高まっている。本稿では, 複雑な監視ビデオにおける異常事象を, 完全に教師なしの方法で位置決め可能な, 異常検出のための新しいベースラインを提案する。我々は既存のVADデータセットを変更し、我々のアプローチと2つの大規模データセット上の既存のUS SOTAメソッドを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-01T01:25:06Z)
Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-14T12:30:58Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文参考訳（メタデータ） (2023-05-23T02:20:12Z)
CHAD: Charlotte Anomaly Dataset [2.6774008509840996]
ビデオ異常検出のためのシャーロット異常データセット(CHAD)を提案する。 CHADはバウンディングボックス、アイデンティティ、各アクターのアノテーションを含む最初の異常データセットである。 4つのカメラビューと115万フレーム以上を持つCHADは、完全注釈付き異常検出データセットとしては最大である。
論文参考訳（メタデータ） (2022-12-19T06:05:34Z)
Anomaly detection in surveillance videos using transformer based attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文参考訳（メタデータ） (2022-06-03T12:19:39Z)
Anomaly Crossing: A New Method for Video Anomaly Detection as Cross-domain Few-shot Learning [32.0713939637202]
ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。従来のアプローチのほとんどは、教師なしまたは半教師なしの手法で通常のビデオからのみ学習する。本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用することで,新たな学習パラダイムを提案する。
論文参考訳（メタデータ） (2021-12-12T20:49:38Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。