論文の概要: Motion Semantics Guided Normalizing Flow for Privacy-Preserving Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2603.26745v1
- Date: Mon, 23 Mar 2026 08:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.565044
- Title: Motion Semantics Guided Normalizing Flow for Privacy-Preserving Video Anomaly Detection
- Title(参考訳): プライバシ保護ビデオ異常検出のための正規化フローをガイドしたモーションセマンティクス
- Authors: Yang Liu, Boan Chen, Yuanyuan Meng, Jing Liu, Zhengliang Guo, Wei Zhou, Peng Sun, Hong Chen,
- Abstract要約: ビデオ異常検出は、インテリジェントな監視と法医学的分析のためのマルチメディアシステムにおいて重要な課題である。
本稿では,骨格に基づくVADを階層的な動作セマンティックスモデリングに分解する動作セマンティックスガイド正規化フロー(MSG-Flow)を提案する。
MSG-Flowは、それぞれ88.1%と75.8%のAUCで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 21.81092485652255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As embodied perception systems increasingly bridge digital and physical realms in interactive multimedia applications, the need for privacy-preserving approaches to understand human activities in physical environments has become paramount. Video anomaly detection is a critical task in such embodied multimedia systems for intelligent surveillance and forensic analysis. Skeleton-based approaches have emerged as a privacy-preserving alternative that processes physical world information through abstract human pose representations while discarding sensitive visual attributes such as identity and facial features. However, existing skeleton-based methods predominantly model continuous motion trajectories in a monolithic manner, failing to capture the hierarchical nature of human activities composed of discrete semantic primitives and fine-grained kinematic details, which leads to reduced discriminability when anomalies manifest at different abstraction levels. In this regard, we propose Motion Semantics Guided Normalizing Flow (MSG-Flow) that decomposes skeleton-based VAD into hierarchical motion semantics modeling. It employs vector quantized variational auto-encoder to discretize continuous motion into interpretable primitives, an autoregressive Transformer to model semantic-level temporal dependencies, and a conditional normalizing flow to capture detail-level pose variations. Extensive experiments on benchmarks (HR-ShanghaiTech & HR-UBnormal) demonstrate that MSG-Flow achieves state-of-the-art performance with 88.1% and 75.8% AUC respectively.
- Abstract(参考訳): インタラクティブなマルチメディアアプリケーションにおいて、デジタルと物理の領域を橋渡しする認識システムがますます普及するにつれて、物理的環境における人間の活動を理解するためのプライバシー保護アプローチの必要性が最重要視されている。
ビデオ異常検出は、インテリジェントな監視と法医学的分析のために組み込まれたマルチメディアシステムにおいて重要な課題である。
スケルトンをベースとしたアプローチは、アイデンティティや顔の特徴といった繊細な視覚的属性を捨てながら、抽象的な人間のポーズ表現を通じて物理世界情報を処理するためのプライバシー保護の代替として登場した。
しかし、既存の骨格に基づく手法は、主にモノリシックな方法で連続的な運動軌跡をモデル化し、個別のセマンティックプリミティブと微粒なキネマティックディテールからなる人間の活動の階層的な性質を捉えることができず、異なる抽象レベルで異常が現れると識別可能性が低下する。
そこで本研究では,骨格型VADを階層型動作セマンティクスモデリングに分解する動作セマンティクスガイド正規化フロー(MSG-Flow)を提案する。
ベクトル量子化された変分自動エンコーダを用いて、連続運動を解釈可能なプリミティブに識別し、意味レベルの時間依存をモデル化するための自己回帰変換器、詳細レベルのポーズ変動をキャプチャするための条件正規化フローを使用する。
ベンチマーク(HR-ShanghaiTechとHR-UBnormal)の大規模な実験は、MSG-Flowがそれぞれ88.1%と75.8%のAUCで最先端のパフォーマンスを達成することを示した。
関連論文リスト
- RefineVAD: Semantic-Guided Feature Recalibration for Weakly Supervised Video Anomaly Detection [2.770730728142587]
Weakly-Supervised Video Anomaly Detectionは、ビデオレベルのラベルのみを使用して異常なイベントを特定することを目的としている。
既存の手法は、全ての異常事象を単一のカテゴリとして扱うことで、しばしば異常空間を単純化する。
この二重プロセス推論を模倣する新しいフレームワークであるRefineVADを提案する。
論文 参考訳(メタデータ) (2025-11-17T10:15:34Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - Action Hints: Semantic Typicality and Context Uniqueness for Generalizable Skeleton-based Video Anomaly Detection [39.65895515365808]
動作の典型性や一意性学習を通じて骨格データの可能性を解き放つ新しいゼロショットビデオ異常検出フレームワークを提案する。
提案手法は,4つの大規模VADデータセット上でのスケルトンに基づく手法に対する最先端の結果を得る。
論文 参考訳(メタデータ) (2025-09-14T02:51:32Z) - Implicit Neural Representation for Physics-driven Actuated Soft Bodies [15.261578025057593]
本稿では、ニューラルネットワークによってパラメータ化されるアクチュエータ信号の最適化のために、微分可能、準静的、物理に基づくシミュレーション層を利用する。
材料空間の空間点からアクティベーション値への連続写像を可能にする関数を定義する。
顔画像の特定の場合の暗黙的モデルを下顎運動学に拡張し、高品質なキャプチャーシステムで捉えた表情を確実に再現できることを示す。
論文 参考訳(メタデータ) (2024-01-26T13:42:12Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。