論文の概要: SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere
- arxiv url: http://arxiv.org/abs/2605.08003v1
- Date: Fri, 08 May 2026 16:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.218778
- Title: SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere
- Title(参考訳): SphereVAD: 単位超球面上の測地的推論による訓練不要ビデオ異常検出
- Authors: Chao Huang, Penfei Wei, Wei Wang, Jie Wen, Zhihua Wang, Li Shen, Wenqi Ren, Xiaochun Cao,
- Abstract要約: ビデオ異常検出(VAD)は、トリミングされていない監視ビデオの通常のパターンから逸脱するイベントを自動的に識別することを目的としている。
SphereVADはトレーニング不要でゼロショットのVADフレームワークで、単位超球面上の準比測地線推定をvon Mises-Fisher (vMF) と再放送する。
- 参考スコア(独自算出の注目度): 90.85001795656633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) aims to automatically identify events that deviate from normal patterns in untrimmed surveillance videos. Existing methods universally depend on large-scale annotations or task-specific training procedures, severely limiting their rapid deployment to novel scenes. We observe that intermediate-layer features of pre-trained multimodal large language models (MLLMs) already encode rich anomaly semantics, yet existing approaches rely on the language output pathway and fail to exploit the geometric discriminability latent in these representations. Based on this finding, we propose SphereVAD, a fully training-free, zero-shot VAD framework that recasts anomaly discrimination as von Mises-Fisher (vMF) likelihood-ratio geodesic inference on the unit hypersphere, unleashing latent discriminability through principled geometric reasoning rather than learning new representations. Specifically, SphereVAD first applies Frechet mean centering to unfold feature distributions and eliminate domain biases, then employs Holistic Scene Attention (HSA) to reinforce feature consistency using cross-video priors, and finally performs vMF-guided Spherical Geodesic Pulling (SGP) to align ambiguous segments with directional prototypes on the spherical manifold. This training-free pipeline requires only minimal synthetic images for calibration. SphereVAD establishes new state-of-the-art results among training-free approaches on three major benchmarks and remains competitive with fully supervised baselines. Code will be available upon acceptance.
- Abstract(参考訳): ビデオ異常検出(VAD)は、トリミングされていない監視ビデオの通常のパターンから逸脱するイベントを自動的に識別することを目的としている。
既存の手法は大規模アノテーションやタスク固有の訓練手順に依存しており、新しいシーンへの迅速な展開を著しく制限している。
事前学習されたマルチモーダル言語モデル(MLLM)の中間層の特徴は、既にリッチな異常意味論を符号化しているが、既存のアプローチは言語出力経路に依存しており、これらの表現に潜む幾何学的識別性を利用できない。
そこで本研究では,非トレーニングフリーでゼロショットなVADフレームワークであるSphereVADを提案する。このフレームワークは,新しい表現を学習するのではなく,原則付き幾何学的推論による潜在的識別性を解き放ちながら,単位超球上でのvon Mises-Fisher (vMF) 準測地線推定を再現する。
具体的には、まず、Frechet平均を特徴分布の展開とドメインバイアスの排除に当てはめ、次にHSA(Hollistic Scene Attention)を用いて、ビデオの先行値を用いて特徴一貫性を強化し、最後に、球面多様体上の不明瞭なセグメントと方向のプロトタイプとの整合のために、vMF誘導球面測地探査(SGP)を実行する。
この訓練不要パイプラインは、キャリブレーションのための最小限の合成画像しか必要としない。
SphereVADは3つの主要なベンチマークに対するトレーニング不要のアプローチの中で、新しい最先端の結果を確立し、完全に教師付きベースラインと競合し続ける。
コードは受理後利用可能になる。
関連論文リスト
- Reasoning-Guided Grounding: Elevating Video Anomaly Detection through Multimodal Large Language Models [2.8529525624646492]
ビデオ異常検出(VAD)は、伝統的にバイナリ分類または外れ値検出としてフレーム化されてきた。
本稿では,異常分類,空間的接地,思考の連鎖的推論を統一するフレームワークであるVANGUARDを提案する。
UCF-Crimeでは、VANGUARDは94%のROC-AUCを84%のF1で達成し、同時に解釈可能な連鎖説明と異常物体の空間的接地を生成する。
論文 参考訳(メタデータ) (2026-04-07T20:15:15Z) - Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - ABounD: Adversarial Boundary-Driven Few-Shot Learning for Multi-Class Anomaly Detection [24.691181948844136]
ABversaounDは、マルチクラス異常検出のためのAdrial Boundary-Driven few-shot Learningフレームワークである。
意味論的概念学習と意思決定境界形成を統合している。
MVTec-ADとVisAデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-11-27T13:18:22Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Anomaly Detection by One Class Latent Regularized Networks [36.67420338535258]
近年,GANに基づく半教師付きジェネレーティブ・アドバイザリアル・ネットワーク(GAN)手法が,異常検出タスクで人気を集めている。
遅延特徴空間でトレーニングデータの基盤となる構造を捕捉する新しい対角デュアルオートエンコーダネットワークを提案する。
実験の結果,MNISTおよびCIFAR10データセットおよびGTSRB停止信号データセットの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-02-05T02:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。