論文の概要: QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.03040v1
- Date: Fri, 03 Apr 2026 13:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.48386
- Title: QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection
- Title(参考訳): QVAD: 効率的かつ訓練不要なビデオ異常検出のための質問中心型エージェントフレームワーク
- Authors: Lokman Bekit, Hamza Karim, Nghia T Nguyen, Yasin Yilmaz,
- Abstract要約: ビデオ異常検出(VAD)はコンピュータビジョンにおける基本的な課題である。
本稿では,VLM-LLMインタラクションを動的対話として扱う質問中心エージェントフレームワークQVADを提案する。
QVADはメモリフットプリントを最小限にして高い推論速度を実現し、リソース制約のエッジデバイスに高度なVAD機能を提供する。
- 参考スコア(独自算出の注目度): 11.652235163237117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Anomaly Detection (VAD) is a fundamental challenge in computer vision, particularly due to the open-set nature of anomalies. While recent training-free approaches utilizing Vision-Language Models (VLMs) have shown promise, they typically rely on massive, resource-intensive foundation models to compensate for the ambiguity of static prompts. We argue that the bottleneck in VAD is not necessarily model capacity, but rather the static nature of inquiry. We propose QVAD, a question-centric agentic framework that treats VLM-LLM interaction as a dynamic dialogue. By iteratively refining queries based on visual context, our LLM agent guides smaller VLMs to produce high-fidelity captions and precise semantic reasoning without parameter updates. This ``prompt-updating" mechanism effectively unlocks the latent capabilities of lightweight models, enabling state-of-the-art performance on UCF-Crime, XD-Violence, and UBNormal using a fraction of the parameters required by competing methods. We further demonstrate exceptional generalizability on the single-scene ComplexVAD dataset. Crucially, QVAD achieves high inference speeds with minimal memory footprints, making advanced VAD capabilities deployable on resource-constrained edge devices.
- Abstract(参考訳): ビデオ異常検出(VAD)は、特に異常のオープンセットの性質のため、コンピュータビジョンにおける基本的な課題である。
VLM(Vision-Language Models)を利用した最近のトレーニングフリーアプローチは有望であるが、静的なプロンプトのあいまいさを補うために、大容量のリソース集約基盤モデルに依存しているのが一般的である。
VADのボトルネックは必ずしもモデルキャパシティではなく、調査の静的な性質である、と我々は主張する。
本稿では,VLM-LLMインタラクションを動的対話として扱う質問中心エージェントフレームワークQVADを提案する。
LLMエージェントは、視覚的コンテキストに基づいてクエリを反復的に精製することにより、より小さなVLMをガイドし、パラメータを更新せずに高忠実なキャプションと正確な意味推論を生成する。
この‘prompt-updating’メカニズムは、軽量モデルの潜在能力を効果的に解き、競合するメソッドに必要なパラメータのごく一部を使用して、UCF-Crime、XD-Violence、UBNormalの最先端のパフォーマンスを実現する。
さらに,単一シーンのコンプレックスVADデータセットにおいて,例外的な一般化性を示す。
重要な点として、QVADはメモリフットプリントを最小限に抑えて高い推論速度を実現し、リソース制約のエッジデバイスに高度なVAD機能をデプロイ可能にする。
関連論文リスト
- AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems [6.294240680169978]
災害時の無人航空機(UAV)は、CNNが提供できない複雑なクエリー可能な知性を必要とする。
本稿では,適応型分割計算によるVLMデプロイメントを実現するフレームワークであるAVERYを紹介する。
論文 参考訳(メタデータ) (2025-11-22T18:42:04Z) - Sparse Reasoning is Enough: Biological-Inspired Framework for Video Anomaly Detection with Large Pre-trained Models [36.38859440184592]
ビデオ異常検出(VAD)は、セキュリティ監視、自律運転、産業監視といった現実世界のアプリケーションにおいて重要な役割を果たす。
大規模事前学習モデルの最近の進歩は、豊富な事前知識と一般的な推論能力を活用することにより、トレーニング不要なVADの新たな機会を開いた。
VADシステムで強力な事前学習モデルを使用する場合、高密度推論は本当に必要か?
本稿では,人間の神経系の二重反射と意識経路にインスパイアされた新しいフレームワークであるReCoVADを提案する。
論文 参考訳(メタデータ) (2025-11-21T09:50:21Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [2.5988879420706095]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。
既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。
本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:52:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。