論文の概要: Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection
- arxiv url: http://arxiv.org/abs/2506.03162v1
- Date: Fri, 23 May 2025 10:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.693017
- Title: Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection
- Title(参考訳): 拡張型トケフュージョンを用いたバイオレンス検出用デュアルブランチビデオマンバ
- Authors: Damith Chamalke Senadeera, Xiaoyun Yang, Dimitrios Kollias, Gregory Slabaugh,
- Abstract要約: 二重ブランチ設計と状態空間モデル(GCTF)を組み合わせた効率的なアーキテクチャを提案する。
我々は、ビデオ暴力検出におけるVio RWF-2000、RLVS、VioPeruのデータセットによる新しいベンチマークを示し、トレーニングとテストセットの厳密な分離を保証する。
本モデルでは, リアルタイム監視による暴力検出において, 精度と計算効率のバランスが最適であることを示す。
- 参考スコア(独自算出の注目度): 21.354382437543315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of surveillance cameras has increased the demand for automated violence detection. While CNNs and Transformers have shown success in extracting spatio-temporal features, they struggle with long-term dependencies and computational efficiency. We propose Dual Branch VideoMamba with Gated Class Token Fusion (GCTF), an efficient architecture combining a dual-branch design and a state-space model (SSM) backbone where one branch captures spatial features, while the other focuses on temporal dynamics, with continuous fusion via a gating mechanism. We also present a new benchmark by merging RWF-2000, RLVS, and VioPeru datasets in video violence detection, ensuring strict separation between training and testing sets. Our model achieves state-of-the-art performance on this benchmark offering an optimal balance between accuracy and computational efficiency, demonstrating the promise of SSMs for scalable, real-time surveillance violence detection.
- Abstract(参考訳): 監視カメラの急速な普及により、自動暴力検出の需要が高まっている。
CNNとTransformersは時空間の特徴を抽出することに成功したが、長期的な依存関係と計算効率に苦慮している。
本稿では,デュアルブランチ設計と状態空間モデル(SSM)のバックボーンを組み合わせた効率的なアーキテクチャであるGCTF(Gated Class Token Fusion)を用いたDual Branch VideoMambaを提案する。
また、RWF-2000、RLVS、VioPeruのデータセットを統合してビデオ暴力検出を行い、トレーニングとテストセットの厳密な分離を確保することで、新しいベンチマークを示す。
本モデルでは,精度と計算効率のバランスを最適に保ち,スケーラブルでリアルタイムな監視暴力検出のためのSSMの実現を実証する。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment [24.053542031123985]
ビデオ品質評価(VQA)のためのマンバモデルMVQAを提案する。
USDSは低解像度ビデオからのセマンティックパッチサンプリングと、オリジナル解像度ビデオからの歪みパッチサンプリングを組み合わせる。
実験の結果,提案したMVQAにはUSDSが組み込まれており,最先端の手法に匹敵する性能が得られた。
論文 参考訳(メタデータ) (2025-04-22T16:08:23Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - CUE-Net: Violence Detection Video Analytics with Spatial Cropping, Enhanced UniformerV2 and Modified Efficient Additive Attention [21.354382437543315]
本稿では,ビデオ監視における暴力自動検出のための新しいアーキテクチャであるCUE-Netを紹介する。
CUE-Netはローカルとグローバル両方の時間的特徴に着目し、RWF-2000およびRLVSデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-27T20:09:40Z) - Inter-frame Accelerate Attack against Video Interpolation Models [73.28751441626754]
我々は,対戦型攻撃をVIFモデルに適用し,対戦型モデルに対して非常に脆弱であることを示す。
本稿では,フレーム間加速攻撃(IAA)と呼ばれる新しい攻撃手法を提案する。
本手法は従来の手法と同等の攻撃性能を達成しつつ,攻撃効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-11T03:08:48Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。