論文の概要: Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion
- arxiv url: http://arxiv.org/abs/2408.02033v1
- Date: Sun, 4 Aug 2024 13:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:35:21.810313
- Title: Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion
- Title(参考訳): 深層学習型視覚融合による人間の行動認識と暴力検出の強化
- Authors: Pooya Janani, Amirabolfazl Suratgar, Afshin Taghvaeipour,
- Abstract要約: 本稿では,公共の場での人間の行動認識と暴力検出を改善するために,ハイブリッドフュージョンに基づくディープラーニング手法を提案する。
オーディオビジョンフュージョンを利用するために、レイトフュージョン、中間フュージョン、ハイブリッドフュージョンベースディープラーニング(HFBDL)を用いて比較する。
HFBDLのシミュレーション結果は、検証データに対して96.67%の精度を示しており、このデータセットの他の最先端手法よりも正確である。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a hybrid fusion-based deep learning approach based on two different modalities, audio and video, to improve human activity recognition and violence detection in public places. To take advantage of audiovisual fusion, late fusion, intermediate fusion, and hybrid fusion-based deep learning (HFBDL) are used and compared. Since the objective is to detect and recognize human violence in public places, Real-life violence situation (RLVS) dataset is expanded and used. Simulating results of HFBDL show 96.67\% accuracy on validation data, which is more accurate than the other state-of-the-art methods on this dataset. To showcase our model's ability in real-world scenarios, another dataset of 54 sounded videos of both violent and non-violent situations was recorded. The model could successfully detect 52 out of 54 videos correctly. The proposed method shows a promising performance on real scenarios. Thus, it can be used for human action recognition and violence detection in public places for security purposes.
- Abstract(参考訳): 本稿では,公共の場での人間の行動認識と暴力検出を改善するために,オーディオとビデオの2つの異なるモードに基づくハイブリッドフュージョンベースのディープラーニング手法を提案する。
オーディオビジョンフュージョンを利用するために、レイトフュージョン、中間フュージョン、ハイブリッドフュージョンベースディープラーニング(HFBDL)を用いて比較する。
公共の場での人間の暴力の検出と認識が目的であるため、実生活暴力状況(RLVS)データセットを拡張して使用する。
HFBDLの結果をシミュレーションすると、検証データの96.67\%の精度が示され、このデータセットの他の最先端手法よりも正確である。
実世界のシナリオにおける我々のモデルの能力を示すために、暴力的かつ非暴力的な状況の54の映像の別のデータセットが記録された。
このモデルは54本中52本を正確に検出することができた。
提案手法は実シナリオにおける有望な性能を示す。
したがって、安全のために公共の場所での人間の行動認識や暴力検出に使用できる。
関連論文リスト
- Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes [3.6308756891251392]
生成AIの一種であるリアルタイムディープフェイク(Real-time Deepfake)は、ビデオ内の既存のコンテンツ(例えば、顔を別のものと交換する)を「生成する」ことができる。
金融詐欺や政治的誤報など、悪意ある目的のためにディープフェイクビデオを作るのに誤用されている。
本研究では,物理干渉に適応できないディープフェイクモデルを利用した新しいリアルタイムディープフェイク検出手法であるSFakeを提案する。
論文 参考訳(メタデータ) (2024-09-17T04:58:30Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Detecting Violence in Video Based on Deep Features Fusion Technique [0.30458514384586394]
本研究では、2つの畳み込みニューラルネットワーク(CNN)の融合技術を用いて暴力を検出する新しい方法を提案する。
提案手法の性能は,検出精度の観点から3つの標準ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-04-15T12:51:20Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。
コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-21T15:45:37Z) - Independent Component Analysis for Trustworthy Cyberspace during High
Impact Events: An Application to Covid-19 [4.629100947762816]
新型コロナウイルス(COVID-19)の感染拡大など、ソーシャルメディアは重要なコミュニケーションチャンネルとなっている。
ソーシャルメディアにおける誤報が急速に拡散し、社会不安を生じさせるため、そのような出来事における誤報の拡散は重要なデータ課題である。
本稿では,ICAモデルに基づくデータ駆動型ソリューションを提案する。
論文 参考訳(メタデータ) (2020-06-01T21:48:22Z) - Self-trained Deep Ordinal Regression for End-to-End Video Anomaly
Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。
我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文 参考訳(メタデータ) (2020-03-15T08:44:55Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。