論文の概要: Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting
- arxiv url: http://arxiv.org/abs/2510.02155v1
- Date: Thu, 02 Oct 2025 16:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.199258
- Title: Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting
- Title(参考訳): 微視的プロンプティングによる映像異常検出のためのアンロック型ビジョンランゲージモデル
- Authors: Shu Zou, Xinyu Tian, Lukas Wesemann, Fabian Waschkowski, Zhaoyuan Yang, Jing Zhang,
- Abstract要約: 本稿では,ビデオ異常検出のための構造化プロンプトフレームワークであるASK-Hintを提案する。
提案手法は, セマンティック・コヒーレントなグループにプロンプトを整理し, きめ細かい案内質問を定式化する。
UCF-CrimeとXD-Violenceの実験では、ASK-Hintは以前のベースラインよりも一貫してAUCを改善している。
- 参考スコア(独自算出の注目度): 17.850029260662648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting has emerged as a practical way to adapt frozen vision-language models (VLMs) for video anomaly detection (VAD). Yet, existing prompts are often overly abstract, overlooking the fine-grained human-object interactions or action semantics that define complex anomalies in surveillance videos. We propose ASK-Hint, a structured prompting framework that leverages action-centric knowledge to elicit more accurate and interpretable reasoning from frozen VLMs. Our approach organizes prompts into semantically coherent groups (e.g. violence, property crimes, public safety) and formulates fine-grained guiding questions that align model predictions with discriminative visual cues. Extensive experiments on UCF-Crime and XD-Violence show that ASK-Hint consistently improves AUC over prior baselines, achieving state-of-the-art performance compared to both fine-tuned and training-free methods. Beyond accuracy, our framework provides interpretable reasoning traces towards anomaly and demonstrates strong generalization across datasets and VLM backbones. These results highlight the critical role of prompt granularity and establish ASK-Hint as a new training-free and generalizable solution for explainable video anomaly detection.
- Abstract(参考訳): プロンプティングは、ビデオ異常検出(VAD)に凍結視覚言語モデル(VLM)を適用する実用的な方法として登場した。
しかし、既存のプロンプトは、しばしば過度に抽象化され、監視ビデオの複雑な異常を定義する、きめ細かい人間とオブジェクトの相互作用やアクションセマンティクスを見渡す。
本稿では、アクション中心の知識を活用して、凍結したVLMからより正確で解釈可能な推論を導き出す構造化プロンプトフレームワークASK-Hintを提案する。
我々のアプローチは、意味的に一貫性のあるグループ(例えば暴力、財産犯罪、公共の安全)にプロンプトを編成し、モデル予測と差別的な視覚的手がかりを整合させるきめ細かな指針を定式化する。
UCF-CrimeとXD-Violenceの大規模な実験により、ASK-Hintは従来のベースラインよりもAUCを一貫して改善し、微調整法と訓練不要法の両方と比較して最先端の性能を達成した。
我々のフレームワークは、精度を超えて、異常に対する解釈可能な推論トレースを提供し、データセットとVLMバックボーンをまたいだ強力な一般化を示す。
これらの結果から,ASK-Hintを新たなトレーニングフリーで一般化可能な,説明可能なビデオ異常検出ソリューションとして確立する上で重要な役割を浮き彫りにした。
関連論文リスト
- Learning Event Completeness for Weakly Supervised Video Anomaly Detection [5.140169437190526]
弱監視ビデオ異常検出(LEC-VAD)のための新しい学習イベント完全性を提案する。
LEC-VADは、視覚と言語の間のカテゴリー認識とカテゴリー認識のセマンティクスの両方を符号化する。
本研究では,異常項目のカテゴリに関連付けられた簡潔なテキスト記述を豊かにするための,新しいメモリバンクベースのプロトタイプ学習機構を開発する。
論文 参考訳(メタデータ) (2025-06-16T04:56:58Z) - Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection [2.749898166276854]
弱教師付きビデオ異常検出(WS-VAD)が現代研究の方向性として浮上している。
暴力やヌードなどの異常を正確に検出するマルチモーダルなWS-VADフレームワークを提案する。
提案モデルでは,暴力とヌード検出のベンチマークデータセットを用いて,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-29T12:46:57Z) - Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。
本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文 参考訳(メタデータ) (2024-12-24T09:05:37Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。
これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。
本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。