論文の概要: Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method
- arxiv url: http://arxiv.org/abs/2601.10165v1
- Date: Thu, 15 Jan 2026 08:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.04908
- Title: Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method
- Title(参考訳): 適応型マルチステージビデオ異常推論の高速化:ベンチマークデータセットと方法
- Authors: Chao Huang, Benfeng Wang, Wei Wang, Jie Wen, Li Shen, Wenqi Ren, Yong Xu, Xiaochun Cao,
- Abstract要約: 本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
- 参考スコア(独自算出の注目度): 96.63801368613177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in reasoning capabilities of Multimodal Large Language Models(MLLMs) has highlighted their potential for performing complex video understanding tasks. However, in the domain of Video Anomaly Detection and Understanding (VAD&U), existing MLLM-based methods are largely limited to anomaly localization or post-hoc description, lacking explicit reasoning processes, risk awareness, and decision-oriented interpretation. To address this gap, we define a new task termed Video Anomaly Reasoning (VAR), which elevates video anomaly analysis from descriptive understanding to structured, multi-stage reasoning. VAR explicitly requires models to perform progressive reasoning over anomalous events before answering anomaly-related questions, encompassing visual perception, causal interpretation, and risk-aware decision making. To support this task, we present a new dataset with 8,641 videos, where each video is annotated with diverse question types corresponding to different reasoning depths, totaling more than 50,000 samples, making it one of the largest datasets for video anomaly. The annotations are based on a structured Perception-Cognition-Action Chain-of-Thought (PerCoAct-CoT), which formalizes domain-specific reasoning priors for video anomaly understanding. This design enables systematic evaluation of multi-stage and adaptive anomaly reasoning. In addition, we propose Anomaly-Aware Group Relative Policy Optimization to further enhance reasoning reliability under weak supervision. Building upon the proposed task and dataset, we develop an end-to-end MLLM-based VAR model termed Vad-R1-Plus, which supports adaptive hierarchical reasoning and risk-aware decision making. Extensive experiments demonstrate that the proposed benchmark and method effectively advance the reasoning capabilities of MLLMs on VAR tasks, outperforming both open-source and proprietary baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の推論能力の最近の進歩は、複雑なビデオ理解タスクの実行の可能性を強調している。
しかし、ビデオ異常検出・理解(VAD&U)の領域では、既存のMLLMベースの手法は、主に異常なローカライゼーションやポストホックな記述に限られており、明確な推論プロセスの欠如、リスク認識、意思決定指向の解釈が欠如している。
このギャップに対処するため,ビデオ異常推論(VAR)と呼ばれる新たなタスクを定義し,ビデオ異常解析を記述的理解から構造化多段階推論へと高める。
VARは、視覚的知覚、因果解釈、リスクを意識した意思決定を含む、異常に関連する問題に答える前に、異常事象に対して進行的推論を行うモデルを要求する。
このタスクを支援するために,8,641本の動画に異なる推論深度に対応する多様な質問タイプをアノテートした新たなデータセットを提案する。
アノテーションは、ビデオ異常理解のためのドメイン固有の推論先を形式化する構造化された知覚-認知-行動連鎖(PerCoAct-CoT)に基づいている。
この設計により、多段階および適応的異常推論の体系的評価が可能となる。
さらに、弱い監督下での推論信頼性をさらに高めるために、Anomaly-Aware Group Relative Policy Optimizationを提案する。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
大規模な実験により、提案したベンチマークと手法は、VARタスクにおけるMLLMの推論能力を効果的に向上し、オープンソースのベースラインとプロプライエタリなベースラインの両方を上回ります。
関連論文リスト
- VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models [29.213430569936943]
ビデオ異常検出のためのLLM駆動型フレームワークであるVADERを提案する。
VADERは、ビデオからの異常な理解を強化するために、オブジェクト機能と視覚的手がかりを統合する。
複数の実世界のVAUベンチマークの実験では、VADERは異常記述、説明、因果推論タスクにまたがって強い結果が得られることを示した。
論文 参考訳(メタデータ) (2025-11-10T16:56:11Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment [12.388954043805235]
VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-07-10T17:23:42Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。