論文の概要: A Benchmark for Crime Surveillance Video Analysis with Large Models
- arxiv url: http://arxiv.org/abs/2502.09325v1
- Date: Thu, 13 Feb 2025 13:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:35.291692
- Title: A Benchmark for Crime Surveillance Video Analysis with Large Models
- Title(参考訳): 大規模モデルによる犯罪監視映像分析のベンチマーク
- Authors: Haoran Chen, Dong Yi, Moyan Cao, Chensen Huang, Guibo Zhu, Jinqiao Wang,
- Abstract要約: 監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
UCVLと表記される大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
- 参考スコア(独自算出の注目度): 22.683394427744616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Anomaly analysis in surveillance videos is a crucial topic in computer vision. In recent years, multimodal large language models (MLLMs) have outperformed task-specific models in various domains. Although MLLMs are particularly versatile, their abilities to understand anomalous concepts and details are insufficiently studied because of the outdated benchmarks of this field not providing MLLM-style QAs and efficient algorithms to assess the model's open-ended text responses. To fill this gap, we propose a benchmark for crime surveillance video analysis with large models denoted as UCVL, including 1,829 videos and reorganized annotations from the UCF-Crime and UCF-Crime Annotation datasets. We design six types of questions and generate diverse QA pairs. Then we develop detailed instructions and use OpenAI's GPT-4o for accurate assessment. We benchmark eight prevailing MLLMs ranging from 0.5B to 40B parameters, and the results demonstrate the reliability of this bench. Moreover, we finetune LLaVA-OneVision on UCVL's training set. The improvement validates our data's high quality for video anomaly analysis.
- Abstract(参考訳): 監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
MLLMは特に汎用性が高いが、MLLMスタイルのQAと効率的なアルゴリズムを提供していない分野の古いベンチマークのため、異常な概念や詳細を理解する能力は不十分である。
このギャップを埋めるために,UCF-Crime および UCF-Crime Annotation データセットからの1,829本のビデオと再編成アノテーションを含む,大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
6種類の質問を設計し、多様なQAペアを生成します。
次に,詳細な指示書を作成し,OpenAIのGPT-4oを用いて正確な評価を行う。
我々は,0.5Bから40Bまでの8種類のMLLMをベンチマークし,このベンチの信頼性を実証した。
さらに,UCVLのトレーニングセット上でLLaVA-OneVisionを微調整する。
この改良は、ビデオ異常解析におけるデータの高品質性を検証する。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - Video-STR: Reinforcing MLLMs in Video Spatio-Temporal Reasoning with Relation Graph [29.737059125885057]
Video-STRは様々なベンチマークで最先端の結果を達成し、ML-Benchではベースモデルを13%上回っている。
コード、モデル、データはリリースされます。
論文 参考訳(メタデータ) (2025-10-13T03:26:56Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。
本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。
実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文 参考訳(メタデータ) (2023-12-21T08:15:02Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。