論文の概要: Evaluation of Vision-LLMs in Surveillance Video
- arxiv url: http://arxiv.org/abs/2510.23190v1
- Date: Mon, 27 Oct 2025 10:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.522667
- Title: Evaluation of Vision-LLMs in Surveillance Video
- Title(参考訳): サーベイランスビデオにおけるビジョンLLMの評価
- Authors: Pascal Benschop, Cristian Meo, Justin Dauwels, Jelte P. Mense,
- Abstract要約: 本稿では視覚言語モデル(VLM)の空間的推論について検討する。
これは、スパース2Dビデオからダイナミックな3Dシーンを解釈する、具体的認識課題に対処する。
UCF-Crime と RWF-2000 の4つのオープンモデルについて,プロンプトおよびプライバシ保護条件下で評価した。
- 参考スコア(独自算出の注目度): 8.750453732584491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of cameras in our society has created an overwhelming amount of video data, far exceeding the capacity for human monitoring. This presents a critical challenge for public safety and security, as the timely detection of anomalous or criminal events is crucial for effective response and prevention. The ability for an embodied agent to recognize unexpected events is fundamentally tied to its capacity for spatial reasoning. This paper investigates the spatial reasoning of vision-language models (VLMs) by framing anomalous action recognition as a zero-shot, language-grounded task, addressing the embodied perception challenge of interpreting dynamic 3D scenes from sparse 2D video. Specifically, we investigate whether small, pre-trained vision--LLMs can act as spatially-grounded, zero-shot anomaly detectors by converting video into text descriptions and scoring labels via textual entailment. We evaluate four open models on UCF-Crime and RWF-2000 under prompting and privacy-preserving conditions. Few-shot exemplars can improve accuracy for some models, but may increase false positives, and privacy filters -- especially full-body GAN transforms -- introduce inconsistencies that degrade accuracy. These results chart where current vision--LLMs succeed (simple, spatially salient events) and where they falter (noisy spatial cues, identity obfuscation). Looking forward, we outline concrete paths to strengthen spatial grounding without task-specific training: structure-aware prompts, lightweight spatial memory across clips, scene-graph or 3D-pose priors during description, and privacy methods that preserve action-relevant geometry. This positions zero-shot, language-grounded pipelines as adaptable building blocks for embodied, real-world video understanding. Our implementation for evaluating VLMs is publicly available at: https://github.com/pascalbenschopTU/VLLM_AnomalyRecognition
- Abstract(参考訳): 私たちの社会におけるカメラの普及は、人間の監視能力を大きく超え、圧倒的な量のビデオデータを生み出しました。
これは、異常や犯罪事件のタイムリーな検出が効果的な対応と予防に不可欠であるため、公共の安全と安全にとって重要な課題である。
具体的エージェントが予期せぬ事象を認識する能力は、空間的推論の能力と根本的に結びついている。
本稿では,視覚言語モデル(VLM)の空間的推論について,ゼロショット・言語接地課題として異常な動作認識をフレーミングすることにより検討し,スパルス2Dビデオから動的3Dシーンを解釈する具体的課題に対処する。
具体的には,映像をテキスト記述に変換し,テキスト・エンテーメントによりラベルをスコアリングすることにより,小・小・小・小・小・小の視覚-LLMが空間的・ゼロショット・異常検出器として機能するかどうかを検討する。
UCF-Crime と RWF-2000 の4つのオープンモデルについて,プロンプトおよびプライバシ保護条件下で評価した。
いくつかのモデルの精度は向上するが、偽陽性が増加し、プライバシフィルタ(特にフルボディのGAN変換)は精度を低下させる不整合を導入している。これらの結果は、現在のビジョン-LLMが成功する(単純で空間的に健全なイベント)と、それらがフェールする(ノイズの多い空間的手がかり、アイデンティティ難読化)。
今後,タスク固有の訓練を伴わずに空間的接地を強化するための具体的な道筋を概説する: 構造認識プロンプト,クリップ間の軽量空間記憶,記述中のシーングラフや3Dプリンシパル,行動関連幾何を保存するプライバシーメソッド。
これにより、ゼロショットで言語を基盤としたパイプラインを、具体化された実世界のビデオ理解のための適応可能なビルディングブロックとして位置付ける。
VLMを評価するための実装は、https://github.com/pascalbenschopTU/VLLM_AnomalyRecognitionで公開されています。
関連論文リスト
- Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection [11.197888893266535]
Flashbackはゼロショットおよびリアルタイムビデオ異常検出パラダイムである。
異常を即座に判断する人間の認知メカニズムにインスパイアされたFlashbackは、RecallとRespondの2つの段階で動作する。
推論時にすべてのLSMコールを削除することで、FlashbackはコンシューマグレードのGPU上でもリアルタイムのVADを提供する。
論文 参考訳(メタデータ) (2025-05-21T07:32:29Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。