論文の概要: VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07299v1
- Date: Mon, 10 Nov 2025 16:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.378677
- Title: VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
- Title(参考訳): VADER:関係性を考慮した大規模言語モデルによる因果的ビデオ異常理解を目指して
- Authors: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai,
- Abstract要約: ビデオ異常検出のためのLLM駆動型フレームワークであるVADERを提案する。
VADERは、ビデオからの異常な理解を強化するために、オブジェクト機能と視覚的手がかりを統合する。
複数の実世界のVAUベンチマークの実験では、VADERは異常記述、説明、因果推論タスクにまたがって強い結果が得られることを示した。
- 参考スコア(独自算出の注目度): 29.213430569936943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly understanding (VAU) aims to provide detailed interpretation and semantic comprehension of anomalous events within videos, addressing limitations of traditional methods that focus solely on detecting and localizing anomalies. However, existing approaches often neglect the deeper causal relationships and interactions between objects, which are critical for understanding anomalous behaviors. In this paper, we propose VADER, an LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe object Relation features with visual cues to enhance anomaly comprehension from video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture the causal context of each anomalous event. A Relation Feature Extractor and a COntrastive Relation Encoder (CORE) jointly model dynamic object interactions, producing compact relational representations for downstream reasoning. These visual and relational cues are integrated with LLMs to generate detailed, causally grounded descriptions and support robust anomaly-related question answering. Experiments on multiple real-world VAU benchmarks demonstrate that VADER achieves strong results across anomaly description, explanation, and causal reasoning tasks, advancing the frontier of explainable video anomaly analysis.
- Abstract(参考訳): ビデオ異常理解(VAU)は、ビデオ内の異常事象の詳細な解釈と意味理解を提供することを目的としており、異常の検出とローカライズのみに焦点を当てた従来の手法の限界に対処することを目的としている。
しかし、既存のアプローチは、しばしば、異常な振る舞いを理解するために重要なオブジェクト間の深い因果関係や相互作用を無視する。
本稿では,ビデオからの異常理解を高めるために,キーフレームオブジェクトリレーション機能と視覚的手がかりを統合した,ビデオ異常検出のためのLLM駆動フレームワークであるVADERを提案する。
具体的には、VADERはまず、フレームごとの異常スコアを割り当てるためにAnomaly Scorerを適用し、次に、各異常イベントの因果コンテキストをキャプチャするためのContext-AwarE Smpling (CAES)戦略を適用します。
リレーショナル・フィーチャー・エクストラクタとコントラティブ・リレーショナル・エンコーダ(CORE)が協調して動的オブジェクト相互作用をモデル化し、下流推論のためのコンパクトなリレーショナル表現を生成する。
これらの視覚的およびリレーショナルな手がかりはLLMと統合され、詳細で因果的基礎的な記述を生成し、堅牢な異常関連質問応答をサポートする。
複数の実世界のVAUベンチマークの実験では、VADERは異常記述、説明、因果推論タスクにまたがって強力な結果を達成し、説明可能なビデオ異常解析のフロンティアを前進させることを示した。
関連論文リスト
- A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis [64.42659342276117]
ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T14:49:08Z) - Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection [33.77002721234086]
MLLM(Multimodal Large Language Models)を利用した新しいVADフレームワークを提案する。
本手法は、時間とともにオブジェクトのアクティビティやインタラクションを抽出し、解釈することに焦点を当てる。
我々のアプローチは本質的に説明可能性を提供し、多くの従来のVAD手法と組み合わせて解釈可能性をさらに高めることができる。
論文 参考訳(メタデータ) (2025-10-16T17:13:33Z) - VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文 参考訳(メタデータ) (2025-05-29T14:48:10Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity [35.14762107193339]
HIVAU-70kは、あらゆる粒度の階層的ビデオ異常理解のためのベンチマークである。
高品質なアノテーションを効率よくスケールする半自動アノテーションエンジンを開発した。
長ビデオにおける効率的な異常検出のために,Anomaly- Focus Temporal Samplerを提案する。
論文 参考訳(メタデータ) (2024-12-09T03:05:34Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。