論文の概要: 2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos
- arxiv url: http://arxiv.org/abs/2409.07588v1
- Date: Wed, 11 Sep 2024 19:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:31:44.622912
- Title: 2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos
- Title(参考訳): エンドツーエンド暴力検出のための2次元双方向ゲート繰り返し単位畳み込みニューラルネットワーク
- Authors: Abdarahmane Traoré, Moulay A. Akhloufi,
- Abstract要約: 本稿では,双方向Gated Recurrent Unit (BiGRU) と2次元畳み込みニューラルネットワーク (CNN) を組み合わせて,ビデオシーケンス中の暴力を検出するアーキテクチャを提案する。
CNNは各フレームから空間特性を抽出し、BiGRUは複数のフレームからCNN抽出特徴を用いて時間的および局所的な運動特性を抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abnormal behavior detection, action recognition, fight and violence detection in videos is an area that has attracted a lot of interest in recent years. In this work, we propose an architecture that combines a Bidirectional Gated Recurrent Unit (BiGRU) and a 2D Convolutional Neural Network (CNN) to detect violence in video sequences. A CNN is used to extract spatial characteristics from each frame, while the BiGRU extracts temporal and local motion characteristics using CNN extracted features from multiple frames. The proposed end-to-end deep learning network is tested in three public datasets with varying scene complexities. The proposed network achieves accuracies up to 98%. The obtained results are promising and show the performance of the proposed end-to-end approach.
- Abstract(参考訳): ビデオにおける異常な行動検出、行動認識、戦闘、暴力検出は、近年多くの関心を集めている分野だ。
本研究では,双方向Gated Recurrent Unit (BiGRU) と2次元畳み込みニューラルネットワーク (CNN) を組み合わせて,ビデオシーケンス中の暴力を検出するアーキテクチャを提案する。
CNNは各フレームから空間特性を抽出し、BiGRUは複数のフレームからCNN抽出特徴を用いて時間的および局所的な運動特性を抽出する。
提案するエンドツーエンドのディープラーニングネットワークは、さまざまなシーンの複雑さを持つ3つの公開データセットでテストされている。
提案したネットワークは、最大98%のアキュラティを達成している。
得られた結果は,提案手法のエンド・ツー・エンド・アプローチの性能を示すものである。
関連論文リスト
- Violence detection in videos using deep recurrent and convolutional neural networks [0.0]
繰り返しニューラルネットワーク(RNN)と2次元畳み込みニューラルネットワーク(2D CNN)を組み合わせた暴力検出のためのディープラーニングアーキテクチャを提案する。
ビデオフレームに加えて、キャプチャーシーケンスを用いて計算した光フローを用いる。
提案手法は最先端技術と同じレベルに達し,時折それらを上回るものとなる。
論文 参考訳(メタデータ) (2024-09-11T19:21:51Z) - Spatio-Temporal-based Context Fusion for Video Anomaly Detection [1.7710335706046505]
ビデオ異常はビデオ内の異常な事象を発見することを目的としており、主な対象は人や車などの対象物である。
既存のほとんどの手法は、異常検出における空間的コンテキストの役割を無視して、時間的コンテキストのみに焦点を当てている。
本稿では,目標時間文脈融合に基づくビデオ異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:10Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Time and Frequency Network for Human Action Detection in Videos [6.78349879472022]
TFNetという,時刻と周波数を同時に考慮したエンドツーエンドネットワークを提案する。
動作パターンを得るには、これら2つの特徴を注目機構の下で深く融合させる。
論文 参考訳(メタデータ) (2021-03-08T11:42:05Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。