論文の概要: Optimizing Violence Detection in Video Classification Accuracy through 3D Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2411.01348v1
- Date: Sat, 02 Nov 2024 19:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:02.068497
- Title: Optimizing Violence Detection in Video Classification Accuracy through 3D Convolutional Neural Networks
- Title(参考訳): 3次元畳み込みニューラルネットワークによる映像分類精度の最適ビオレンス検出
- Authors: Aarjav Kavathia, Simeon Sayer,
- Abstract要約: 本研究は、暴力検出モデルの精度を最適化するために、一度に何つのフレームを分析すべきかを特定することである。
以前の暴力分類モデルが作成されているが、ライブ映像への応用には欠陥がある可能性がある。
最も高い検証精度は94.87%であり、同時に3つのフレームを分析したモデルで発生した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As violent crimes continue to happen, it becomes necessary to have security cameras that can rapidly identify moments of violence with excellent accuracy. The purpose of this study is to identify how many frames should be analyzed at a time in order to optimize a violence detection model's accuracy as a parameter of the depth of a 3D convolutional network. Previous violence classification models have been created, but their application to live footage may be flawed. In this project, a convolutional neural network was created to analyze optical flow frames of each video. The number of frames analyzed at a time would vary with one, two, three, ten, and twenty frames, and each model would be trained for 20 epochs. The greatest validation accuracy was 94.87% and occurred with the model that analyzed three frames at a time. This means that machine learning models to detect violence may function better when analyzing three frames at a time for this dataset. The methodology used to identify the optimal number of frames to analyze at a time could be used in other applications of video classification, especially those of complex or abstract actions, such as violence.
- Abstract(参考訳): 暴力犯罪が続くにつれて、優れた精度で暴力の瞬間を迅速に識別できる防犯カメラが必要である。
本研究の目的は、暴力検出モデルの精度を3次元畳み込みネットワークの深さのパラメータとして最適化するために、一度に何個のフレームを分析すべきかを特定することである。
以前の暴力分類モデルが作成されているが、ライブ映像への応用には欠陥がある可能性がある。
このプロジェクトでは、各ビデオの光フローフレームを分析するために畳み込みニューラルネットワークが作られた。
一度に分析されたフレームの数は、1、2、3、10、20フレームで変化し、各モデルは20エポックで訓練される。
最も高い検証精度は94.87%であり、同時に3つのフレームを分析したモデルで発生した。
これは、暴力を検出する機械学習モデルは、このデータセットに対して一度に3つのフレームを分析する際に、よりよく機能する可能性があることを意味している。
一度に分析するフレームの最適な数を特定するための方法論は、ビデオ分類の他の応用、特に暴力のような複雑な、あるいは抽象的なアクションの応用に利用することができる。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Deep Ensemble Learning with Frame Skipping for Face Anti-Spoofing [5.543184872682789]
顔提示攻撃 (PA) は生体認証システムに重大な脅威をもたらす。
連続するビデオフレームにおける顔の動きを解析するいくつかのビデオベース手法が文献で紹介されている。
本稿では,顔のアンチスプーフ処理を動作予測問題として言い換え,フレームスキッピング機構を備えた深層アンサンブル学習モデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T08:50:29Z) - Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal
Features Using Time Distributed Deep CNNs, RNNs and Attention-Based
Mechanisms [0.0]
CCTVカメラシステムによるリアルタイムビデオ監視は、公共の安全を確保するために欠かせないものとなっている。
ディープラーニングビデオ分類技術は、監視システムを自動化して暴力を検知するのに役立ちます。
論文 参考訳(メタデータ) (2023-02-21T22:02:39Z) - Detecting Violence in Video Based on Deep Features Fusion Technique [0.30458514384586394]
本研究では、2つの畳み込みニューラルネットワーク(CNN)の融合技術を用いて暴力を検出する新しい方法を提案する。
提案手法の性能は,検出精度の観点から3つの標準ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-04-15T12:51:20Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Decoupled Appearance and Motion Learning for Efficient Anomaly Detection
in Surveillance Video [9.80717374118619]
我々は、純粋に教師なしの方法で正常な振る舞いを学習する新しいニューラルネットワークアーキテクチャを提案する。
我々のモデルは、関連するアプローチの16倍から45倍のフレームを毎秒処理できる。
論文 参考訳(メタデータ) (2020-11-10T11:40:06Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。