論文の概要: Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection
- arxiv url: http://arxiv.org/abs/2506.03162v2
- Date: Thu, 25 Sep 2025 21:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.425751
- Title: Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection
- Title(参考訳): 拡張型トケフュージョンを用いたバイオレンス検出用デュアルブランチビデオマンバ
- Authors: Damith Chamalke Senadeera, Xiaoyun Yang, Shibo Li, Muhammad Awais, Dimitrios Kollias, Gregory Slabaugh,
- Abstract要約: 本稿では,RWF-2000,RLVS,SURV,VioPeruを併用したビデオ暴力検出手法を提案する。
実験結果から,本モデルによる評価結果が得られた。
スケーラブルでほぼリアルタイムな監視暴力検出のためのSSMの約束を実証する。
- 参考スコア(独自算出の注目度): 29.267947325070164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of surveillance cameras has increased the demand for automated violence detection. While CNNs and Transformers have shown success in extracting spatio-temporal features, they struggle with long-term dependencies and computational efficiency. We propose Dual Branch VideoMamba with Gated Class Token Fusion (GCTF), an efficient architecture combining a dual-branch design and a state-space model (SSM) backbone where one branch captures spatial features, while the other focuses on temporal dynamics. The model performs continuous fusion via a gating mechanism between the branches to enhance the model's ability to detect violent activities even in challenging surveillance scenarios. We also present a new benchmark by merging RWF-2000, RLVS, SURV and VioPeru datasets in video violence detection, ensuring strict separation between training and testing sets. Experimental results demonstrate that our model achieves state-of-the-art performance on this benchmark and also on DVD dataset which is another novel dataset on video violence detection, offering an optimal balance between accuracy and computational efficiency, demonstrating the promise of SSMs for scalable, near real-time surveillance violence detection.
- Abstract(参考訳): 監視カメラの急速な普及により、自動暴力検出の需要が高まっている。
CNNとTransformersは時空間の特徴を抽出することに成功したが、長期的な依存関係と計算効率に苦慮している。
両ブランチ設計と状態空間モデル(SSM)のバックボーンを組み合わせた効率的なアーキテクチャであるGCTF(Gated Class Token Fusion)を用いたDual Branch VideoMambaを提案する。
モデルは、枝間のゲーティング機構を介して連続的な融合を行い、挑戦的な監視シナリオであっても、モデルが暴力行為を検出する能力を高める。
また、RWF-2000、RLVS、SURV、VioPeruのデータセットを統合してビデオ暴力検出を行い、トレーニングセットとテストセットの厳密な分離を確保する。
実験結果から,本モデルがビデオ暴力検出の新たなデータセットであるDVDデータセットにも適用でき,精度と計算効率の最適バランスが得られ,拡張性,ほぼリアルタイムな監視暴力検出のためのSSMの実現が実証された。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment [24.053542031123985]
ビデオ品質評価(VQA)のためのマンバモデルMVQAを提案する。
USDSは低解像度ビデオからのセマンティックパッチサンプリングと、オリジナル解像度ビデオからの歪みパッチサンプリングを組み合わせる。
実験の結果,提案したMVQAにはUSDSが組み込まれており,最先端の手法に匹敵する性能が得られた。
論文 参考訳(メタデータ) (2025-04-22T16:08:23Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - CUE-Net: Violence Detection Video Analytics with Spatial Cropping, Enhanced UniformerV2 and Modified Efficient Additive Attention [21.354382437543315]
本稿では,ビデオ監視における暴力自動検出のための新しいアーキテクチャであるCUE-Netを紹介する。
CUE-Netはローカルとグローバル両方の時間的特徴に着目し、RWF-2000およびRLVSデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-27T20:09:40Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Inter-frame Accelerate Attack against Video Interpolation Models [73.28751441626754]
我々は,対戦型攻撃をVIFモデルに適用し,対戦型モデルに対して非常に脆弱であることを示す。
本稿では,フレーム間加速攻撃(IAA)と呼ばれる新しい攻撃手法を提案する。
本手法は従来の手法と同等の攻撃性能を達成しつつ,攻撃効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-11T03:08:48Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。