Fugu-MT 論文翻訳(概要): GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids

論文の概要: GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids

arxiv url: http://arxiv.org/abs/2603.25467v1
Date: Thu, 26 Mar 2026 14:08:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.323986
Title: GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids
Title（参考訳）: GridVAD: 階層化フレームグリッド上の空間推論によるオープンセットビデオ異常検出
Authors: Mohamed Eltahir, Ahmed O. Ibrahim, Obada Siralkhatim, Tabarak Abdallah, Sondos Mohamed,
Abstract要約: VLM(Vision-Language Models)は強力なオープンセット推論器であるが、ビデオ監視における異常検出として直接使用されるのは脆弱である。問題はVLM自身ではなく、どのように使われているかだ、と我々は主張する。画素レベルの異常マスクを生成するトレーニングフリーパイプラインであるGridVADにおいて、この提案-代用原理をインスタンス化する。
参考スコア（独自算出の注目度）: 0.3624700141426058
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Vision-Language Models (VLMs) are powerful open-set reasoners, yet their direct use as anomaly detectors in video surveillance is fragile: without calibrated anomaly priors, they alternate between missed detections and hallucinated false alarms. We argue the problem is not the VLM itself but how it is used. VLMs should function as anomaly proposers, generating open-set candidate descriptions that are then grounded and tracked by purpose-built spatial and temporal modules. We instantiate this propose-ground-propagate principle in GridVAD, a training-free pipeline that produces pixel-level anomaly masks without any domain-specific training. A VLM reasons over stratified grid representations of video clips to generate natural-language anomaly proposals. Self-Consistency Consolidation (SCC) filters hallucinations by retaining only proposals that recur across multiple independent samplings. Grounding DINO anchors each surviving proposal to a bounding box, and SAM2 propagates it as a dense mask through the anomaly interval. The per-clip VLM budget is fixed at M+1 calls regardless of video length, where M can be set according to the proposals needed. On UCSD Ped2, GridVAD achieves the highest Pixel-AUROC (77.59) among all compared methods, surpassing even the partially fine-tuned TAO (75.11) and outperforms other zero-shot approaches on object-level RBDC by over 5x. Ablations reveal that SCC provides a controllable precision-recall tradeoff: filtering improves all pixel level metrics at a modest cost in object-level recall. Efficiency experiments show GridVAD is 2.7x more call-efficient than uniform per-frame VLM querying while additionally producing dense segmentation masks.Code and qualitative video results are available at https://gridvad.github.io.
Abstract（参考訳）: VLM(Vision-Language Models)は強力なオープンセット推論器であるが、ビデオ監視における異常検知器として直接使用されるのは脆弱である。問題はVLM自身ではなく、どのように使われているかだ、と我々は主張する。 VLMは異常なプロジェクタとして機能し、オープンセットの候補記述を生成して、目的的に構築された空間的および時間的モジュールによって基礎と追跡を行う。ドメイン固有のトレーニングを伴わずに画素レベルの異常マスクを生成できるトレーニング不要パイプラインであるGridVADにおいて、この提案された地上プロパゲート原理をインスタンス化する。 VLMは、ビデオクリップの階層化されたグリッド表現を理由として、自然言語の異常な提案を生成する。 SCC(Self-Consistency Consolidation)は、複数の独立したサンプリングに再帰する提案のみを保持することで幻覚をフィルタリングする。グラウンドディングDINOは、生き残った各提案をバウンディングボックスにアンカーし、SAM2は、異常間隔を通して密なマスクとして伝播する。クリップごとのVLM予算はビデオ長にかかわらずM+1コールで固定され、Mは必要な提案に応じて設定できる。 UCSD Ped2では、GridVADは比較対象の最も高いPixel-AUROC (77.59) を達成し、一部微調整されたTAO (75.11) を上回り、オブジェクトレベルのRBDCの他のゼロショットアプローチを5倍以上上回っている。フィルタリングは、オブジェクトレベルのリコールにおいて、控えめなコストですべてのピクセルレベルのメトリクスを改善する。 GridVADはフレーム毎の均一なVLMクエリよりも2.7倍高速で,さらに高密度なセグメンテーションマスクを生成する。

関連論文リスト

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection [15.949619310702579]
オープンワールドシナリオで実行されている既存のビデオ異常検出方法。主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。エンドツーエンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
論文参考訳（メタデータ） (2026-02-22T16:03:43Z)
MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文参考訳（メタデータ） (2025-10-12T09:05:28Z)
HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文参考訳（メタデータ） (2025-07-23T10:41:46Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention [61.025422435235456]
MMInferenceは、長文マルチモーダル入力のプリフィルステージを高速化する動的スパースアテンション手法である。 MMInferenceは, 精度を維持しつつ, 1Mトークンにおいて, プリフィルステージを最大8.3倍高速化することを示す。
論文参考訳（メタデータ） (2025-04-22T17:59:51Z)
Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。本稿では,この制限に対処するためのFISA法を提案する。 FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。 SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文参考訳（メタデータ） (2023-10-29T09:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。