論文の概要: VADMamba++: Efficient Video Anomaly Detection via Hybrid Modeling in Grayscale Space
- arxiv url: http://arxiv.org/abs/2604.00360v1
- Date: Wed, 01 Apr 2026 01:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.781046
- Title: VADMamba++: Efficient Video Anomaly Detection via Hybrid Modeling in Grayscale Space
- Title(参考訳): VADMamba++: グレースケール空間におけるハイブリッドモデリングによる効率的なビデオ異常検出
- Authors: Jihao Lyu, Minghua Zhao, Jing Hu, Yifei Chen, Shuangli Du, Cheng Shi,
- Abstract要約: 本稿では,Gray-to-RGBパラダイムに基づく効率的なVAD手法であるVADMamba++を紹介する。
VADMamba++は、グレースケールのフレームをRGB空間に再構成し、構造幾何学と色度を同時に識別する。
- 参考スコア(独自算出の注目度): 13.723113942907519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VADMamba pioneered the introduction of Mamba to Video Anomaly Detection (VAD), achieving high accuracy and fast inference through hybrid proxy tasks. Nevertheless, its heavy reliance on optical flow as auxiliary input and inter-task fusion scoring constrains its applicability to a single proxy task. In this paper, we introduce VADMamba++, an efficient VAD method based on the Gray-to-RGB paradigm that enforces a Single-Channel to Three-Channel reconstruction mapping, designed for a single proxy task and operating without auxiliary inputs. This paradigm compels inferring color appearances from grayscale structures, allowing anomalies to be more effectively revealed through dual inconsistencies between structure and chromatic cues. Specifically, VADMamba++ reconstructs grayscale frames into the RGB space to simultaneously discriminate structural geometry and chromatic fidelity, thereby enhancing sensitivity to explicit visual anomalies. We further design a hybrid modeling backbone that integrates Mamba, CNN, and Transformer modules to capture diverse normal patterns while suppressing the appearance of anomalies. Furthermore, an intra-task fusion scoring strategy integrates explicit future-frame prediction errors with implicit quantized feature errors, further improving accuracy under a single task setting. Extensive experiments on three benchmark datasets demonstrate that VADMamba++ outperforms state-of-the-art methods while meeting performance and efficiency, especially under a strict single-task setting with only frame-level inputs.
- Abstract(参考訳): VADMambaは、ビデオ異常検出(VAD)へのMambaの導入の先駆者であり、ハイブリッドプロキシタスクを通じて高精度で高速な推論を実現する。
それでも、補助的な入力およびタスク間融合スコアリングとしての光学フローに大きく依存しているため、単一のプロキシタスクへの適用性は制限される。
本稿では, 1 つのプロキシタスク用に設計され, 補助入力なしで動作可能な 1 つのチャネルから 3 チャネルへの再構成を強制する Gray-to-RGB パラダイムに基づく効率的な VAD 手法である VADMamba++ を紹介する。
このパラダイムは、グレースケール構造から色の外観を推測することで、構造と色相の二重矛盾により、異常をより効果的に明らかにする。
具体的には、VADMamba++は、グレースケールのフレームをRGB空間に再構成し、構造幾何学と色の忠実さを同時に識別し、明示的な視覚異常に対する感度を高める。
さらに、Mamba、CNN、Transformerモジュールを統合したハイブリッドモデリングバックボーンを設計し、異常の出現を抑制しながら、多様な正規パターンをキャプチャする。
さらに、タスク内融合スコアリング戦略は、明示的な将来のフレーム予測エラーと暗黙的な量子化された特徴誤差を統合し、単一のタスク設定下での精度をさらに向上させる。
3つのベンチマークデータセットに対する大規模な実験により、VADMamba++は、特にフレームレベルの入力しか持たない厳密なシングルタスク設定の下で、パフォーマンスと効率を満足しながら、最先端のメソッドよりも優れていることが示された。
関連論文リスト
- Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing [26.57698394898644]
マルチステート・パーセプション・パラダイムに基づく新しい脱ハージング・フレームワークを提案する。
Fourier-RWKVはさまざまなヘイズシナリオにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-09T01:35:56Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。