論文の概要: VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.23504v1
- Date: Thu, 29 May 2025 14:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.913115
- Title: VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
- Title(参考訳): VAU-R1:強化ファインチューニングによるビデオ異常理解の強化
- Authors: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun,
- Abstract要約: スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
- 参考スコア(独自算出の注目度): 12.293826084601115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Anomaly Understanding (VAU) is essential for applications such as smart cities, security surveillance, and disaster alert systems, yet remains challenging due to its demand for fine-grained spatio-temporal perception and robust reasoning under ambiguity. Despite advances in anomaly detection, existing methods often lack interpretability and struggle to capture the causal and contextual aspects of abnormal events. This limitation is further compounded by the absence of comprehensive benchmarks for evaluating reasoning ability in anomaly scenarios. To address both challenges, we introduce VAU-R1, a data-efficient framework built upon Multimodal Large Language Models (MLLMs), which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT). Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored for video anomaly reasoning, featuring multiple-choice QA, detailed rationales, temporal annotations, and descriptive captions. Empirical results show that VAU-R1 significantly improves question answering accuracy, temporal grounding, and reasoning coherence across diverse contexts. Together, our method and benchmark establish a strong foundation for interpretable and reasoning-aware video anomaly understanding. Our code is available at https://github.com/GVCLab/VAU-R1.
- Abstract(参考訳): ビデオ異常理解(VAU)は、スマートシティ、セキュリティ監視、災害警報システムなどのアプリケーションには不可欠だが、微粒な時空間認識とあいまいさによる堅牢な推論が要求されているため、依然として困難である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
この制限は、異常シナリオにおける推論能力を評価するための包括的なベンチマークがないことでさらに複雑になる。
両課題に対処するため,マルチモーダル大規模言語モデル(MLLM)上に構築されたデータ効率のよいVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
さらに,複数選択QA,詳細な合理性,時間的アノテーション,記述的キャプションを特徴とする,ビデオ異常推論に適した最初のChain-of-ThoughtベンチマークであるVAU-Benchを提案する。
実験の結果,VAU-R1は様々な文脈における質問応答精度,時間的根拠,推論コヒーレンスを大幅に改善することが示された。
提案手法とベンチマークは,解析的・推論的ビデオ異常理解のための強力な基盤を確立する。
私たちのコードはhttps://github.com/GVCLab/VAU-R1.comで公開されています。
関連論文リスト
- Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models [8.402075279942256]
SurveillanceVQA-589Kは、監視領域に合わせた最大規模のビデオ質問応答ベンチマークである。
データセットは、認知的に多様な質問タイプにまたがる589,380のQAペアで構成されている。
我々のベンチマークは、安全クリティカルなアプリケーションにおけるビデオ言語理解を促進するための実用的で包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-05-19T00:57:04Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly [29.822544507594056]
ビデオ異常の因果理解のためのベンチマーク(CUVA)を提案する。
提案されたベンチマークの各インスタンスは、異常の"何"、"なぜ"、"どのように"を示す3つの人間のアノテーションを含んでいる。
MMEvalはCUVAの人間の嗜好に合うように設計された新しい評価基準である。
論文 参考訳(メタデータ) (2024-04-30T20:11:49Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。