論文の概要: Just Dance with $π$! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.13123v1
- Date: Mon, 19 May 2025 13:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.627274
- Title: Just Dance with $π$! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection
- Title(参考訳): 弱教師付きビデオ異常検出用多モードインダクタ
- Authors: Snehashis Majhi, Giacomo D'Amicantonio, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Egor Bondarev, Francois Bremond,
- Abstract要約: PI-VADは、RGB表現を5つの追加モダリティで拡張する新しいアプローチである。
PI-VADは3つの顕著なVADシナリオで最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 12.492419773705898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised methods for video anomaly detection (VAD) are conventionally based merely on RGB spatio-temporal features, which continues to limit their reliability in real-world scenarios. This is due to the fact that RGB-features are not sufficiently distinctive in setting apart categories such as shoplifting from visually similar events. Therefore, towards robust complex real-world VAD, it is essential to augment RGB spatio-temporal features by additional modalities. Motivated by this, we introduce the Poly-modal Induced framework for VAD: "PI-VAD", a novel approach that augments RGB representations by five additional modalities. Specifically, the modalities include sensitivity to fine-grained motion (Pose), three dimensional scene and entity representation (Depth), surrounding objects (Panoptic masks), global motion (optical flow), as well as language cues (VLM). Each modality represents an axis of a polygon, streamlined to add salient cues to RGB. PI-VAD includes two plug-in modules, namely Pseudo-modality Generation module and Cross Modal Induction module, which generate modality-specific prototypical representation and, thereby, induce multi-modal information into RGB cues. These modules operate by performing anomaly-aware auxiliary tasks and necessitate five modality backbones -- only during training. Notably, PI-VAD achieves state-of-the-art accuracy on three prominent VAD datasets encompassing real-world scenarios, without requiring the computational overhead of five modality backbones at inference.
- Abstract(参考訳): ビデオ異常検出(VAD)の弱教師付き手法は、従来はRGBの時空間的特徴のみに基づいており、現実のシナリオでは信頼性が制限され続けている。
これは、RGB-featuresが、視覚的に類似したイベントからの万引きなどのカテゴリーを分けるのに十分な差別性がないためである。
したがって、ロバストな実世界のVADを実現するためには、RGBの時空間的特徴を付加的なモダリティによって増大させることが不可欠である。
そこで本研究では,RGB表現を5つの追加モダリティで拡張する新しいアプローチであるPI-VAD(Poly-modal induced framework for VAD)を紹介する。
具体的には、微粒な動きに対する感度(Pose)、3次元のシーンと実体表現(Depth)、周囲の物体(Panoptic masks)、大域的な動き(光の流れ)、言語手がかり(VLM)などである。
それぞれのモダリティはポリゴンの軸を表し、RGBにサージェントなキューを追加するために合理化されている。
PI-VADは、Pseudo-modality GenerationモジュールとCross Modal Injectionモジュールという2つのプラグインモジュールを含み、モダリティ固有の原型表現を生成し、RGBキューにマルチモーダル情報を誘導する。
これらのモジュールは、異常を認識した補助タスクを実行し、トレーニング中にのみ5つのモダリティバックボーンを必要とする。
特に、PI-VADは、推論時に5つのモダリティバックボーンの計算オーバーヘッドを必要とせずに、現実のシナリオを含む3つの顕著なVADデータセットに対して最先端の精度を達成する。
関連論文リスト
- Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - CM3AE: A Unified RGB Frame and Event-Voxel/-Frame Pre-training Framework [30.734382771657312]
RGBイベント認識のための新しいCM3AE事前学習フレームワークを提案する。
このフレームワークは、RGBイメージ、イベントイメージ、イベントボクセルなど、データのマルチモダリティ/ビューを入力として受け入れる。
我々は,事前学習のための2,535,759のRGB-Eventデータペアを含む大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-04-17T01:49:46Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Just Add $\pi$! Pose Induced Video Transformers for Understanding
Activities of Daily Living [9.370655190768163]
PI-ViTはビデオトランスフォーマーが学習したRGB表現を2Dと3Dのポーズ情報で拡張する手法である。
$pi$-ViTは、3つの著名なADLデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - Single Frame Semantic Segmentation Using Multi-Modal Spherical Images [0.0]
本稿では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。
我々は、極端物体の変形とパノラマ歪みに対処するために歪み認識モジュールを用いる。
我々の技術は、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T08:06:18Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。