論文の概要: Sparse Reasoning is Enough: Biological-Inspired Framework for Video Anomaly Detection with Large Pre-trained Models
- arxiv url: http://arxiv.org/abs/2511.17094v1
- Date: Fri, 21 Nov 2025 09:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.963489
- Title: Sparse Reasoning is Enough: Biological-Inspired Framework for Video Anomaly Detection with Large Pre-trained Models
- Title(参考訳): スパース推論が十分である:大規模事前学習モデルを用いたビデオ異常検出のための生物学的ヒント付きフレームワーク
- Authors: He Huang, Zixuan Hu, Dongxiao Li, Yao Xiao, Ling-Yu Duan,
- Abstract要約: ビデオ異常検出(VAD)は、セキュリティ監視、自律運転、産業監視といった現実世界のアプリケーションにおいて重要な役割を果たす。
大規模事前学習モデルの最近の進歩は、豊富な事前知識と一般的な推論能力を活用することにより、トレーニング不要なVADの新たな機会を開いた。
VADシステムで強力な事前学習モデルを使用する場合、高密度推論は本当に必要か?
本稿では,人間の神経系の二重反射と意識経路にインスパイアされた新しいフレームワークであるReCoVADを提案する。
- 参考スコア(独自算出の注目度): 36.38859440184592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video anomaly detection (VAD) plays a vital role in real-world applications such as security surveillance, autonomous driving, and industrial monitoring. Recent advances in large pre-trained models have opened new opportunities for training-free VAD by leveraging rich prior knowledge and general reasoning capabilities. However, existing studies typically rely on dense frame-level inference, incurring high computational costs and latency. This raises a fundamental question: Is dense reasoning truly necessary when using powerful pre-trained models in VAD systems? To answer this, we propose ReCoVAD, a novel framework inspired by the dual reflex and conscious pathways of the human nervous system, enabling selective frame processing to reduce redundant computation. ReCoVAD consists of two core pathways: (i) a Reflex pathway that uses a lightweight CLIP-based module to fuse visual features with prototype prompts and produce decision vectors, which query a dynamic memory of past frames and anomaly scores for fast response; and (ii) a Conscious pathway that employs a medium-scale vision-language model to generate textual event descriptions and refined anomaly scores for novel frames. It continuously updates the memory and prototype prompts, while an integrated large language model periodically reviews accumulated descriptions to identify unseen anomalies, correct errors, and refine prototypes. Extensive experiments show that ReCoVAD achieves state-of-the-art training-free performance while processing only 28.55\% and 16.04\% of the frames used by previous methods on the UCF-Crime and XD-Violence datasets, demonstrating that sparse reasoning is sufficient for effective large-model-based VAD.
- Abstract(参考訳): ビデオ異常検出(VAD)は、セキュリティ監視、自律運転、産業監視といった現実世界のアプリケーションにおいて重要な役割を果たす。
大規模事前学習モデルの最近の進歩は、豊富な事前知識と一般的な推論能力を活用することにより、トレーニング不要なVADの新たな機会を開いた。
しかし、既存の研究は一般に密度の高いフレームレベルの推論に依存し、高い計算コストと遅延をもたらす。
VADシステムで強力な事前学習モデルを使用する場合、高密度推論は本当に必要か?
これに対応するために,人間の神経系の二重反射と意識経路にインスパイアされた新しいフレームワークReCoVADを提案する。
ReCoVADは2つの中核経路から構成される。
i) 軽量のCLIPベースのモジュールを使用して視覚的特徴をプロトタイププロンプトと融合させ、決定ベクトルを生成し、過去のフレームの動的メモリと高速応答のための異常スコアをクエリするReflexパス。
(二)中規模視覚言語モデルを用いて、テキストのイベント記述と、新しいフレームの修正された異常スコアを生成する意識的経路。
メモリとプロトタイプのプロンプトを継続的に更新し、統合された大きな言語モデルは定期的に蓄積した記述をレビューし、目に見えない異常、正しいエラー、そしてプロトタイプを精査する。
大規模な実験により、ReCoVADは、UCF-CrimeとXD-Violenceデータセットの以前の手法で使われたフレームの28.55\%と16.04\%しか処理せず、最先端のトレーニングフリーのパフォーマンスを実現し、スパース推論が大きなモデルベースのVADに十分であることを示した。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - 4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。
カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。
我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文 参考訳(メタデータ) (2025-06-27T14:09:29Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。