論文の概要: Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.14896v1
- Date: Thu, 16 Oct 2025 17:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.968771
- Title: Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
- Title(参考訳): 説明可能な半教師付きビデオ異常検出のためのマルチモーダルLCM記述の活用
- Authors: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz,
- Abstract要約: MLLM(Multimodal Large Language Models)を利用した新しいVADフレームワークを提案する。
本手法は、時間とともにオブジェクトのアクティビティやインタラクションを抽出し、解釈することに焦点を当てる。
我々のアプローチは本質的に説明可能性を提供し、多くの従来のVAD手法と組み合わせて解釈可能性をさらに高めることができる。
- 参考スコア(独自算出の注目度): 33.77002721234086
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing semi-supervised video anomaly detection (VAD) methods often struggle with detecting complex anomalies involving object interactions and generally lack explainability. To overcome these limitations, we propose a novel VAD framework leveraging Multimodal Large Language Models (MLLMs). Unlike previous MLLM-based approaches that make direct anomaly judgments at the frame level, our method focuses on extracting and interpreting object activity and interactions over time. By querying an MLLM with visual inputs of object pairs at different moments, we generate textual descriptions of the activity and interactions from nominal videos. These textual descriptions serve as a high-level representation of the activity and interactions of objects in a video. They are used to detect anomalies during test time by comparing them to textual descriptions found in nominal training videos. Our approach inherently provides explainability and can be combined with many traditional VAD methods to further enhance their interpretability. Extensive experiments on benchmark datasets demonstrate that our method not only detects complex interaction-based anomalies effectively but also achieves state-of-the-art performance on datasets without interaction anomalies.
- Abstract(参考訳): 既存の半教師付きビデオ異常検出法(VAD)は、オブジェクトの相互作用を伴う複雑な異常を検出し、説明可能性の欠如に苦慮することが多い。
これらの制約を克服するために,MLLM(Multimodal Large Language Models)を利用した新しいVADフレームワークを提案する。
フレームレベルで直接異常判定を行う従来のMLLM手法とは異なり,本手法は時間とともに物体の活動や相互作用の抽出と解釈に重点を置いている。
MLLMを異なるタイミングでオブジェクトペアの視覚的な入力でクエリすることで、名目ビデオからアクティビティとインタラクションのテキスト記述を生成する。
これらのテキスト記述は、ビデオ内のオブジェクトのアクティビティと相互作用のハイレベルな表現として機能する。
これらは、名目訓練ビデオに見られるテキスト記述と比較することにより、テスト時間中に異常を検出するために使用される。
我々のアプローチは本質的に説明可能性を提供し、多くの従来のVAD手法と組み合わせて解釈可能性をさらに高めることができる。
ベンチマークデータセットに対する大規模な実験により、我々の手法は複雑な相互作用に基づく異常を効果的に検出するだけでなく、相互作用の異常を伴わないデータセット上での最先端のパフォーマンスも達成することを示した。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [52.620554265703916]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。
本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:41:46Z) - EventVAD: Training-Free Event-Aware Video Anomaly Detection [19.714436150837148]
EventVADはイベント対応のビデオ異常検出フレームワークである。
調整された動的グラフアーキテクチャとマルチモーダル・イベント推論を組み合わせる。
トレーニング不要な環境での最先端(SOTA)を実現し、7B以上のMLLMを使用する強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-17T16:59:04Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Large Models in Dialogue for Active Perception and Anomaly Detection [35.16837804526144]
本稿では,新たなシーンにおける情報収集と異常検出を行うフレームワークを提案する。
2つのディープラーニングモデルが対話を行い、ドローンを積極的に制御し、認識と異常検出の精度を高める。
情報収集に加えて,本手法を異常検出に利用し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-27T18:38:36Z) - Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。