論文の概要: VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding
- arxiv url: http://arxiv.org/abs/2507.21507v1
- Date: Tue, 29 Jul 2025 05:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.747119
- Title: VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding
- Title(参考訳): VAGUとGtS:LLMに基づく共同ビデオ異常グラウンドと理解のためのベンチマークとフレームワーク
- Authors: Shibo Gao, Peipei Yang, Yangyang Liu, Yi Chen, Han Zhu, Xuyao Zhang, Linlin Huang,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。
VAGUは、異常理解と接地を統合する最初のベンチマークである。
Glance then Scrutinize (GtS) はテキストプロンプトでガイドされるトレーニング不要のフレームワークである。
また,意味的解釈可能性と時間的精度を共同で評価するJeAUG指標を提案する。
- 参考スコア(独自算出の注目度): 22.43740206690383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) aims to identify anomalous events in videos and accurately determine their time intervals. Current VAD methods mainly fall into two categories: traditional DNN-based approaches that focus on temporal localization, and LLM-based approaches that emphasize semantic understanding. Both anomaly understanding and grounding are essential for comprehensive video anomaly detection and can complement each other. However, no existing model or dataset supports both tasks simultaneously. To address this, we introduce VAGU (Video Anomaly Grounding and Understanding), the first benchmark to integrate both tasks. Each VAGU instance includes annotations for anomaly category, semantic explanation, precise temporal grounding and Video QA. We also provide multiple-choice Video QA for objective evaluation. Based on this dataset, we propose Glance then Scrutinize (GtS), a training-free framework guided by textual prompts. The framework first enables coarse localization of high-probability anomalous regions, followed by detailed anomaly interpretation and temporal boundary refinement. Additionally, we propose the JeAUG metric, which jointly evaluates semantic interpretability and temporal precision, overcoming the limitations of traditional metrics. Extensive experiments verify the effectiveness of our benchmark, framework, and evaluation metric.
- Abstract(参考訳): ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。
現在のVAD法は主に、時間的ローカライゼーションに焦点を当てた従来のDNNベースのアプローチと、意味理解を重視したLLMベースのアプローチの2つのカテゴリに分類される。
異常理解と接地は総合的なビデオ異常検出に不可欠であり、相互に補完することができる。
しかし、両方のタスクを同時にサポートする既存のモデルやデータセットは存在しない。
これを解決するために,両タスクを統合する最初のベンチマークであるVAGU(Video Anomaly Grounding and Understanding)を紹介する。
各VAGUインスタンスには、異常カテゴリ、セマンティック説明、正確な時間的接地、ビデオQAのためのアノテーションが含まれている。
また、客観的評価のための多重選択ビデオQAも提供する。
このデータセットに基づいて、テキストプロンプトでガイドされるトレーニング不要のフレームワークであるGlance then Scrutinize (GtS)を提案する。
このフレームワークは、まず、高確率異常領域の粗い局所化を可能にし、続いて詳細な異常解釈と時間境界修正を行う。
また,従来のメトリクスの限界を克服し,意味的解釈可能性と時間的精度を共同評価するJeAUGメトリックを提案する。
大規模な実験により,ベンチマーク,フレームワーク,評価指標の有効性が検証された。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity [35.14762107193339]
HIVAU-70kは、あらゆる粒度の階層的ビデオ異常理解のためのベンチマークである。
高品質なアノテーションを効率よくスケールする半自動アノテーションエンジンを開発した。
長ビデオにおける効率的な異常検出のために,Anomaly- Focus Temporal Samplerを提案する。
論文 参考訳(メタデータ) (2024-12-09T03:05:34Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。