論文の概要: Two-stream Multi-dimensional Convolutional Network for Real-time
Violence Detection
- arxiv url: http://arxiv.org/abs/2211.04255v1
- Date: Tue, 8 Nov 2022 14:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:37:04.428004
- Title: Two-stream Multi-dimensional Convolutional Network for Real-time
Violence Detection
- Title(参考訳): リアルタイムビオレンス検出のための2ストリーム多次元畳み込みネットワーク
- Authors: Dipon Kumar Ghosh and Amitabha Chakrabarty
- Abstract要約: 本研究は,2-stream Multi-dimensional Convolutional Network (2s-MDCN) と呼ばれる,暴力検出のための新しいアーキテクチャを提案する。
提案手法は1次元, 2次元, 3次元の畳み込みによって時間的, 空間的情報を独立に抽出する。
我々のモデルは、最大の暴力検出ベンチマークデータセットで89.7%の最先端の精度を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing number of surveillance cameras and security concerns have made
automatic violent activity detection from surveillance footage an active area
for research. Modern deep learning methods have achieved good accuracy in
violence detection and proved to be successful because of their applicability
in intelligent surveillance systems. However, the models are computationally
expensive and large in size because of their inefficient methods for feature
extraction. This work presents a novel architecture for violence detection
called Two-stream Multi-dimensional Convolutional Network (2s-MDCN), which uses
RGB frames and optical flow to detect violence. Our proposed method extracts
temporal and spatial information independently by 1D, 2D, and 3D convolutions.
Despite combining multi-dimensional convolutional networks, our models are
lightweight and efficient due to reduced channel capacity, yet they learn to
extract meaningful spatial and temporal information. Additionally, combining
RGB frames and optical flow yields 2.2% more accuracy than a single RGB stream.
Regardless of having less complexity, our models obtained state-of-the-art
accuracy of 89.7% on the largest violence detection benchmark dataset.
- Abstract(参考訳): 監視カメラの数が増え、セキュリティ上の懸念が高まり、監視映像からの暴力行為の自動検出が研究の活発な領域となった。
現代のディープラーニング手法は暴力検出において高い精度を達成しており、インテリジェントな監視システムに適用可能であることが証明されている。
しかしながら、これらのモデルは計算量的に高価であり、特徴抽出の非効率な方法のため大きさも大きい。
本研究は,rgbフレームとオプティカルフローを用いて暴力を検出する2ストリーム多次元畳み込みネットワーク (2s-mdcn) と呼ばれる暴力検出のための新しいアーキテクチャを提案する。
提案手法は,1次元,2次元,3次元の畳み込みによって時間・空間情報を独立に抽出する。
多次元畳み込みネットワークが組み合わさっているにもかかわらず、我々のモデルはチャネル容量の削減により軽量で効率的であるが、意味のある空間的および時間的情報を抽出することを学ぶ。
さらに、RGBフレームと光フローを組み合わせることで、単一のRGBストリームよりも2.2%精度が向上する。
複雑さが低いにもかかわらず、我々のモデルは最大の暴力検出ベンチマークデータセットで89.7%の最先端の精度を得た。
関連論文リスト
- 2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos [0.0]
本稿では,双方向Gated Recurrent Unit (BiGRU) と2次元畳み込みニューラルネットワーク (CNN) を組み合わせて,ビデオシーケンス中の暴力を検出するアーキテクチャを提案する。
CNNは各フレームから空間特性を抽出し、BiGRUは複数のフレームからCNN抽出特徴を用いて時間的および局所的な運動特性を抽出する。
論文 参考訳(メタデータ) (2024-09-11T19:36:12Z) - Violence detection in videos using deep recurrent and convolutional neural networks [0.0]
繰り返しニューラルネットワーク(RNN)と2次元畳み込みニューラルネットワーク(2D CNN)を組み合わせた暴力検出のためのディープラーニングアーキテクチャを提案する。
ビデオフレームに加えて、キャプチャーシーケンスを用いて計算した光フローを用いる。
提案手法は最先端技術と同じレベルに達し,時折それらを上回るものとなる。
論文 参考訳(メタデータ) (2024-09-11T19:21:51Z) - 2D-Malafide: Adversarial Attacks Against Face Deepfake Detection Systems [8.717726409183175]
2D-Malafideは, 顔深度検出システムに悪影響を与えるように設計された, 新規で軽量な対向攻撃である。
従来の加法ノイズアプローチとは異なり、2D-マラフィドは少数のフィルタ係数を最適化し、頑健な逆方向の摂動を生成する。
FaceForensics++データセットを使用して実施された実験では、2D-Malafideがホワイトボックスとブラックボックスの設定の両方で検出性能を著しく低下させることが示された。
論文 参考訳(メタデータ) (2024-08-26T09:41:40Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。