論文の概要: Instance-Aligned Captions for Explainable Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.08155v1
- Date: Tue, 13 Jan 2026 02:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.025691
- Title: Instance-Aligned Captions for Explainable Video Anomaly Detection
- Title(参考訳): 説明可能なビデオ異常検出のためのインスタンス対応キャプション
- Authors: Inpyo Song, Minjun Joo, Joonhyung Kwon, Eunji Jeon, Jangwon Lee,
- Abstract要約: 本稿では、各テキストクレームを特定のオブジェクトインスタンスと外観と動作属性をリンクするインスタンスアラインメントキャプションを提案する。
私たちのフレームワークは、異常の原因となった人物、各エンティティが何をしているか、誰が影響したのか、そしてどの説明が根拠になっているのかをキャプチャします。
私たちは、360度エゴセントリックなデータセットVIEW360を拡張して、868の動画、8のロケーション、4の新たな異常タイプを追加し、説明可能なVADのための総合的なテストベッドVIEW360+を作成しました。
- 参考スコア(独自算出の注目度): 2.551525285008205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable video anomaly detection (VAD) is crucial for safety-critical applications, yet even with recent progress, much of the research still lacks spatial grounding, making the explanations unverifiable. This limitation is especially pronounced in multi-entity interactions, where existing explainable VAD methods often produce incomplete or visually misaligned descriptions, reducing their trustworthiness. To address these challenges, we introduce instance-aligned captions that link each textual claim to specific object instances with appearance and motion attributes. Our framework captures who caused the anomaly, what each entity was doing, whom it affected, and where the explanationis grounded, enabling verifiable and actionable reasoning. We annotate eight widely used VAD benchmarks and extend the 360-degree egocentric dataset, VIEW360, with 868 additional videos, eight locations, and four new anomaly types, creating VIEW360+, a comprehensive testbed for explainable VAD. Experiments show that our instance-level spatially grounded captions reveal significant limitations in current LLM- and VLM-based methods while providing a robust benchmark for future research in trustworthy and interpretable anomaly detection.
- Abstract(参考訳): 説明可能なビデオ異常検出(VAD)は、安全クリティカルなアプリケーションには不可欠だが、最近の進歩にもかかわらず、多くの研究は空間的根拠を欠いているため、説明は検証できない。
この制限は、既存の説明可能なVADメソッドが不完全または視覚的に不整合な記述をしばしば生成し、信頼性を低下させるマルチエンタリティ相互作用において特に顕著である。
これらの課題に対処するために、各テキストクレームを特定のオブジェクトインスタンスと外観と動作属性をリンクするインスタンスアラインメントキャプションを導入する。
私たちのフレームワークは、異常の原因、各エンティティが何をしているか、誰が影響しているか、説明がどこで根拠になっているかを捉え、検証可能で実行可能な推論を可能にします。
我々は8つの広く使用されているVADベンチマークに注釈を付け、360度エゴセントリックなデータセットであるVIEW360を拡張し、868の動画、8のロケーションと4つの新しい異常タイプを追加し、説明可能なVADのための包括的なテストベッドであるVIEW360+を作成しました。
実験により,我々のインスタンスレベルの空間的接地キャプションは,現在のLLM法およびVLM法において大きな限界を示し,信頼性と解釈可能な異常検出のための堅牢なベンチマークを提供する。
関連論文リスト
- VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models [29.213430569936943]
ビデオ異常検出のためのLLM駆動型フレームワークであるVADERを提案する。
VADERは、ビデオからの異常な理解を強化するために、オブジェクト機能と視覚的手がかりを統合する。
複数の実世界のVAUベンチマークの実験では、VADERは異常記述、説明、因果推論タスクにまたがって強い結果が得られることを示した。
論文 参考訳(メタデータ) (2025-11-10T16:56:11Z) - Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection [33.77002721234086]
MLLM(Multimodal Large Language Models)を利用した新しいVADフレームワークを提案する。
本手法は、時間とともにオブジェクトのアクティビティやインタラクションを抽出し、解釈することに焦点を当てる。
我々のアプローチは本質的に説明可能性を提供し、多くの従来のVAD手法と組み合わせて解釈可能性をさらに高めることができる。
論文 参考訳(メタデータ) (2025-10-16T17:13:33Z) - Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting [17.850029260662648]
本稿では,ビデオ異常検出のための構造化プロンプトフレームワークであるASK-Hintを提案する。
提案手法は, セマンティック・コヒーレントなグループにプロンプトを整理し, きめ細かい案内質問を定式化する。
UCF-CrimeとXD-Violenceの実験では、ASK-Hintは以前のベースラインよりも一貫してAUCを改善している。
論文 参考訳(メタデータ) (2025-10-02T16:06:31Z) - Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。
本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文 参考訳(メタデータ) (2024-12-24T09:05:37Z) - Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。
私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。
本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:41:44Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。