論文の概要: Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM
- arxiv url: http://arxiv.org/abs/2102.10590v1
- Date: Sun, 21 Feb 2021 12:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:12:23.558433
- Title: Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM
- Title(参考訳): 分離型畳み込みLSTMを用いたバイオレンス検出のための高効率2ストリームネットワーク
- Authors: Zahidul Islam, Mohammad Rukonuzzaman, Raiyan Ahmed, Md. Hasanul Kabir,
Moshiur Farazi
- Abstract要約: Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically detecting violence from surveillance footage is a subset of
activity recognition that deserves special attention because of its wide
applicability in unmanned security monitoring systems, internet video
filtration, etc. In this work, we propose an efficient two-stream deep learning
architecture leveraging Separable Convolutional LSTM (SepConvLSTM) and
pre-trained MobileNet where one stream takes in background suppressed frames as
inputs and other stream processes difference of adjacent frames. We employed
simple and fast input pre-processing techniques that highlight the moving
objects in the frames by suppressing non-moving backgrounds and capture the
motion in-between frames. As violent actions are mostly characterized by body
movements these inputs help produce discriminative features. SepConvLSTM is
constructed by replacing convolution operation at each gate of ConvLSTM with a
depthwise separable convolution that enables producing robust long-range
Spatio-temporal features while using substantially fewer parameters. We
experimented with three fusion methods to combine the output feature maps of
the two streams. Evaluation of the proposed methods was done on three standard
public datasets. Our model outperforms the accuracy on the larger and more
challenging RWF-2000 dataset by more than a 2% margin while matching
state-of-the-art results on the smaller datasets. Our experiments lead us to
conclude, the proposed models are superior in terms of both computational
efficiency and detection accuracy.
- Abstract(参考訳): 監視映像から暴力を自動的に検出することは、無人のセキュリティ監視システムやインターネットビデオフィルタリングなどに適用可能であるため、特に注目に値する活動認識のサブセットである。
本研究では,SepConvLSTM (Separable Convolutional LSTM) とプリトレーニングされたMobileNet(ストリームがバックグラウンドで抑制されたフレームを入力として取り込む)と,隣接するフレームの他のストリームプロセスの違いを利用して,効率的な2ストリームディープラーニングアーキテクチャを提案する。
我々は,移動しない背景を抑え,フレーム間の動きを捉えることによって,フレーム内の移動物体をハイライトする,シンプルで高速な入力前処理技術を採用した。
暴力的な行動は体の動きによって特徴づけられるため、これらの入力は差別的な特徴を生み出すのに役立つ。
SepConvLSTM は、ConvLSTM の各ゲートの畳み込み操作を深さ方向の分離可能な畳み込みに置き換えることで構築され、非常に少ないパラメータを使用して堅牢な長距離時空間特性を生成します。
2つのストリームの出力特徴マップを結合する3つの融合手法を実験した。
提案手法の評価は3つの標準公開データセットで行った。
我々のモデルは、より大きく、より困難なRWF-2000データセットの精度を2%以上のマージンで上回り、より小さなデータセットの最先端結果と一致させる。
実験の結果,提案モデルの方が計算効率と検出精度の両面で優れていることがわかった。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - FlowMOT: 3D Multi-Object Tracking by Scene Flow Association [9.480272707157747]
従来のマッチングアルゴリズムと点運動情報を統合するLiDARベースの3D MOTフレームワークFlowMOTを提案する。
提案手法は,最新のエンドツーエンド手法より優れ,最先端のフィルタ方式と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-14T14:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。