論文の概要: A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis
- arxiv url: http://arxiv.org/abs/2511.00962v1
- Date: Sun, 02 Nov 2025 14:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.007932
- Title: A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis
- Title(参考訳): ホロスティックゼロショットビデオ異常解析のための統一推論フレームワーク
- Authors: Dongheng Lin, Mengxue Qu, Kunyang Han, Jianbo Jiao, Xiaojie Jin, Yunchao Wei,
- Abstract要約: ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.42659342276117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most video-anomaly research stops at frame-wise detection, offering little insight into why an event is abnormal, typically outputting only frame-wise anomaly scores without spatial or semantic context. Recent video anomaly localization and video anomaly understanding methods improve explainability but remain data-dependent and task-specific. We propose a unified reasoning framework that bridges the gap between temporal detection, spatial localization, and textual explanation. Our approach is built upon a chained test-time reasoning process that sequentially connects these tasks, enabling holistic zero-shot anomaly analysis without any additional training. Specifically, our approach leverages intra-task reasoning to refine temporal detections and inter-task chaining for spatial and semantic understanding, yielding improved interpretability and generalization in a fully zero-shot manner. Without any additional data or gradients, our method achieves state-of-the-art zero-shot performance across multiple video anomaly detection, localization, and explanation benchmarks. The results demonstrate that careful prompt design with task-wise chaining can unlock the reasoning power of foundation models, enabling practical, interpretable video anomaly analysis in a fully zero-shot manner. Project Page: https://rathgrith.github.io/Unified_Frame_VAA/.
- Abstract(参考訳): ほとんどのビデオ異常研究はフレームワイド検出で停止し、なぜイベントが異常であるかについての洞察はほとんど得られず、通常は空間的または意味的な文脈なしにフレームワイド異常スコアのみを出力する。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
我々のアプローチは、これらのタスクを逐次接続する連鎖したテスト時間推論プロセスに基づいており、追加のトレーニングなしで全体的ゼロショット異常解析を可能にする。
具体的には、タスク内推論を利用して時間的検出とタスク間連鎖を洗練し、空間的および意味的理解を可能にし、完全にゼロショットで解釈可能性と一般化を向上する。
新たなデータや勾配がなければ,複数のビデオ異常検出,ローカライゼーション,説明ベンチマークにまたがって,最先端のゼロショット性能を実現することができる。
その結果、タスクワイド・チェーンによる注意深いプロンプト設計は、基礎モデルの推論能力を解き放ち、実用的で解釈可能なビデオ異常解析を完全にゼロショットで行えることを示した。
プロジェクトページ: https://rathgrith.github.io/Unified_Frame_VAA/。
関連論文リスト
- Action Hints: Semantic Typicality and Context Uniqueness for Generalizable Skeleton-based Video Anomaly Detection [39.65895515365808]
動作の典型性や一意性学習を通じて骨格データの可能性を解き放つ新しいゼロショットビデオ異常検出フレームワークを提案する。
提案手法は,4つの大規模VADデータセット上でのスケルトンに基づく手法に対する最先端の結果を得る。
論文 参考訳(メタデータ) (2025-09-14T02:51:32Z) - VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding [22.43740206690383]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。
VAGUは、異常理解と接地を統合する最初のベンチマークである。
Glance then Scrutinize (GtS) はテキストプロンプトでガイドされるトレーニング不要のフレームワークである。
また,意味的解釈可能性と時間的精度を共同で評価するJeAUG指標を提案する。
論文 参考訳(メタデータ) (2025-07-29T05:17:48Z) - VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文 参考訳(メタデータ) (2025-05-29T14:48:10Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。