論文の概要: LATERN: Test-Time Context-Aware Explainable Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.15054v1
- Date: Thu, 14 May 2026 16:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.957984
- Title: LATERN: Test-Time Context-Aware Explainable Video Anomaly Detection
- Title(参考訳): LATERN: テスト時間コンテキストを意識した説明可能なビデオ異常検出
- Authors: Mitchell Piehl, Muchao Ye,
- Abstract要約: 視覚言語モデル(VLM)は、ビデオ異常検出(VAD)のための有望なパラダイムとして登場した。
本稿では,トークンの制約や理性から独立してセグメントレベルの推論を行うパイプラインの鍵となる制限に,時間的コンテキストを構造化せずに対処することを目的とする。
本稿では,VADを時間的証拠収集プロセスとして再構成したLATERNというコンテキスト認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.614138458711612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently emerged as a promising paradigm for video anomaly detection (VAD) due to their strong visual reasoning ability and natural language-based explainability. In this paper, we aim to address a key limitation of such pipelines, which perform segment-level inference independently owing to token constraints and reason without structured temporal context, allowing VLMs to interpret anomalies as deviations from evolving video dynamics rather than producing fragmented predictions and explanations. To specify, we propose a context-aware framework named LATERN, which reformulates VAD as a temporal evidence aggregation process. LATERN consists of two complementary modules: Context-Aware Anomaly Scoring (CEA) and Recursive Evidence Aggregation (REA). CEA introduces a novel image-grounded memory mechanism, which selectively chooses historical content via frame diversity and visual-textual alignment as expanded context to help generate reliable anomaly scores. Building upon these scores, REA performs recursive temporal aggregation to identify coherent anomaly intervals and produce event-level decisions and explanations grounded in visual-textual evidence. Extensive experiments on challenging benchmarks, including UCF-Crime and XD-Violence, show that LATERN enhances detection accuracy and explanation consistency for frozen VLMs during test time, while generating temporally coherent and semantically grounded event-level explanations.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的推論能力と自然言語に基づく説明可能性により、ビデオ異常検出(VAD)の有望なパラダイムとして最近登場した。
本稿では,このようなパイプラインの鍵となる制限に対処することを目的としており,トークン制約や時間的コンテキストが構造化されていない理由から独立してセグメントレベルの推論を行うことにより,VLMは断片化された予測や説明を生成するのではなく,進化するビデオダイナミクスからの逸脱として異常を解釈することができる。
そこで本稿では,VADを時間的エビデンス集約プロセスとして再構成したLATERNというコンテキスト認識フレームワークを提案する。
LATERNは、Context-Aware Anomaly Scoring (CEA)とRecursive Evidence Aggregation (REA)の2つの補完モジュールで構成されている。
CEAは、フレームの多様性と視覚的テクストアライメントを拡張コンテキストとして選択することで、信頼性の高い異常スコアを生成する、新しい画像グラウンド記憶機構を導入している。
これらのスコアに基づいて、REAは再帰的時間的集約を行い、コヒーレントな異常区間を特定し、視覚的・テキスト的証拠に基づく事象レベルの決定と説明を生成する。
UCF-Crime(英語版)やXD-Violence(英語版)といった挑戦的なベンチマークに関する大規模な実験は、LATERNがテスト時間中に凍結VLMの検出精度と説明整合性を向上し、時間的に一貫性があり、セマンティックに根ざしたイベントレベルの説明を生成することを示した。
関連論文リスト
- Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting [17.850029260662648]
本稿では,ビデオ異常検出のための構造化プロンプトフレームワークであるASK-Hintを提案する。
提案手法は, セマンティック・コヒーレントなグループにプロンプトを整理し, きめ細かい案内質問を定式化する。
UCF-CrimeとXD-Violenceの実験では、ASK-Hintは以前のベースラインよりも一貫してAUCを改善している。
論文 参考訳(メタデータ) (2025-10-02T16:06:31Z) - Context-Aware Zero-Shot Anomaly Detection in Surveillance Using Contrastive and Predictive Spatiotemporal Modeling [0.0]
この研究は、トレーニング中に異常な例に晒されることなく異常事象を識別する、文脈対応のゼロショット異常検出フレームワークを導入する。
提案したハイブリッドアーキテクチャは、TimeSformer、DPC、CLIPを組み合わせて、豊富な時空間特徴を抽出する。
コンテキストゲーティング機構は、シーン対応キューやグローバルビデオ機能による予測を調整することにより、意思決定をさらに強化する。
論文 参考訳(メタデータ) (2025-08-25T20:22:35Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文 参考訳(メタデータ) (2025-05-29T14:48:10Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。