論文の概要: CueBench: Advancing Unified Understanding of Context-Aware Video Anomalies in Real-World
- arxiv url: http://arxiv.org/abs/2511.00613v1
- Date: Sat, 01 Nov 2025 16:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.86236
- Title: CueBench: Advancing Unified Understanding of Context-Aware Video Anomalies in Real-World
- Title(参考訳): CueBench: 現実世界におけるコンテキスト対応ビデオ異常の統一的理解の促進
- Authors: Yating Yu, Congqi Cao, Zhaoying Wang, Weihua Meng, Jie Li, Yuxin Li, Zihao Wei, Zhongpei Shen, Jiajun Zhang,
- Abstract要約: 我々はCueBenchを紹介した。CueBenchは、コンテキスト対応ビデオ異常に特化しているBenchmarkの最初のものだ。
本稿では,認識,時間的接地,検出,予測など,さまざまな課題を伴うコンテキスト対応VAUの統一とベンチマークを提案する。
さらに,R1-style reinforcement fine-tuning に基づく Cue-R1 の開発を行った。
- 参考スコア(独自算出の注目度): 23.48765196513229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How far are deep models from real-world video anomaly understanding (VAU)? Current works typically emphasize on detecting unexpected occurrences deviated from normal patterns or comprehending anomalous events with interpretable descriptions. However, they exhibit only a superficial comprehension of real-world anomalies, with limited breadth in complex principles and subtle context that distinguish the anomalies from normalities, e.g., climbing cliffs with safety gear vs. without it. To this end, we introduce CueBench, the first of its kind Benchmark, devoted to Context-aware video anomalies within a Unified Evaluation framework. We comprehensively establish an event-centric hierarchical taxonomy that anchors two core event types: 14 conditional and 18 absolute anomaly events, defined by their refined semantics from diverse contexts across 174 scenes and 198 attributes. Based on this, we propose to unify and benchmark context-aware VAU with various challenging tasks across recognition, temporal grounding, detection, and anticipation. This also serves as a rigorous and fair probing evaluation suite for generative-discriminative as well as generalized-specialized vision-language models (VLMs). To address the challenges underlying CueBench, we further develop Cue-R1 based on R1-style reinforcement fine-tuning with verifiable, task-aligned, and hierarchy-refined rewards in a unified generative manner. Extensive results on CueBench reveal that, existing VLMs are still far from satisfactory real-world anomaly understanding, while our Cue-R1 surpasses these state-of-the-art approaches by over 24% on average.
- Abstract(参考訳): 実際のビデオ異常理解(VAU)からどのくらいの深層モデルがあるのか?
現在の研究は典型的には、通常のパターンから逸脱した予期せぬ事象の検出や、解釈可能な記述による異常事象の解釈に重点を置いている。
しかし、それらは現実世界の異常を表面的に理解するだけであり、複雑な原則や微妙な文脈において、異常を正常性(例えば、安全装置なしで崖を登るなど)と区別する範囲が限られている。
この目的のために、我々はCueBenchを紹介した。CueBenchは、Unified Evaluationフレームワーク内のコンテキスト対応のビデオ異常に特化しているベンチマークである。
14の条件と18の絶対的異常事象を,174のシーンと198の属性の多様なコンテキストから定義した,イベント中心の階層的な分類を包括的に確立する。
そこで本研究では,認識,時間的接地,検出,予測など,さまざまな課題を伴うコンテキスト対応VAUの統一とベンチマークを提案する。
これはまた、生成的識別と一般化された視覚言語モデル(VLM)のための厳密で公正な探索評価スイートとしても機能する。
CueBenchの根底にある課題に対処するため、我々はR1スタイルの強化微調整に基づくCue-R1をさらに発展させ、検証可能でタスク整合性があり、階層化された報酬を統一的に生成する。
CueBenchの大規模な研究結果によると、既存のVLMは実世界の異常な理解には程遠いが、我々のCue-R1は最先端のアプローチを平均で24%以上上回っている。
関連論文リスト
- Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection [7.435598538875321]
ビデオ異常検出(VAD)は、異常事象のばらつきとラベル付きデータの限られた可用性のために難しい課題である。
本稿では,一組のエキスパートモデルを用いて,それぞれが特定の異常型をキャプチャする新しいフレームワークを提案する。
提案手法は,UCF-Crimeデータセット上で91.58%のAUCを達成し,XD-ViolenceデータセットとMSADデータセットにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-08-08T13:48:48Z) - VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文 参考訳(メタデータ) (2025-05-29T14:48:10Z) - CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos [40.63347505454772]
Video Anomaly Detection (VAD) は、ビデオ理解コミュニティの基本的な課題であり続けている。
従来の手法では、通常の時空間パターン固有の正規性を教師なしの方法でモデル化するために、簡単に収集された通常のイベントのみを使用する。
本研究では,教師なしビデオ正規化学習における因果変数の暗黙的なマイニングを行うために,因果一貫性表現学習(CRCL)を提案する。
論文 参考訳(メタデータ) (2025-03-24T15:50:19Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - Two Is Better Than One: Aligned Representation Pairs for Anomaly Detection [56.57122939745213]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型手法は, 異常に関する事前知識を用いて, トレーニング中に合成外れ値を生成することによって, それらの表現をうまく学習している。
この制限は、通常のサンプルにおける対称性に関する事前の知識を活用して、異なるコンテキストでデータを観測する、新しいアプローチであるCon$で対処する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Sensing Anomalies like Humans: A Hominine Framework to Detect Abnormal
Events from Unlabeled Videos [48.15740415466055]
ビデオ異常検出(VAD)は、ビデオ分析において常に重要なトピックである。
我々は、人間が異常を感知する方法にインスパイアされ、教師なしとエンドツーエンドの両方のVADを可能にするホミニンフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-04T11:31:57Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。