論文の概要: JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos
- arxiv url: http://arxiv.org/abs/2405.02961v2
- Date: Sat, 3 Aug 2024 18:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 22:45:03.957916
- Title: JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos
- Title(参考訳): JOSENet:サーベイランスビデオにおけるバイオレンス検出のためのジョイントストリーム埋め込みネットワーク
- Authors: Pietro Nardelli, Danilo Comminiello,
- Abstract要約: 監視ビデオにおける暴力検出は、様々な実戦シーンのような追加の問題を提示する。
本稿では、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する自己監視フレームワークJOSENetを紹介する。
- 参考スコア(独自算出の注目度): 4.94659999696881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing proliferation of video surveillance cameras and the escalating demand for crime prevention have intensified interest in the task of violence detection within the research community. Compared to other action recognition tasks, violence detection in surveillance videos presents additional issues, such as the wide variety of real fight scenes. Unfortunately, existing datasets for violence detection are relatively small in comparison to those for other action recognition tasks. Moreover, surveillance footage often features different individuals in each video and varying backgrounds for each camera. In addition, fast detection of violent actions in real-life surveillance videos is crucial to prevent adverse outcomes, thus necessitating models that are optimized for reduced memory usage and computational costs. These challenges complicate the application of traditional action recognition methods. To tackle all these issues, we introduce JOSENet, a novel self-supervised framework that provides outstanding performance for violence detection in surveillance videos. The proposed model processes two spatiotemporal video streams, namely RGB frames and optical flows, and incorporates a new regularized self-supervised learning approach for videos. JOSENet demonstrates improved performance compared to state-of-the-art methods, while utilizing only one-fourth of the frames per video segment and operating at a reduced frame rate. The source code is available at https://github.com/ispamm/JOSENet.
- Abstract(参考訳): ビデオ監視カメラの普及と防犯需要の増大により、研究コミュニティ内での暴力検出業務への関心が高まっている。
他の行動認識タスクと比較して、監視ビデオにおける暴力検出は、様々な実戦シーンのような、追加の問題を提示する。
残念ながら、暴力検出のための既存のデータセットは、他のアクション認識タスクと比較して比較的小さい。
さらに、監視映像は、各ビデオに異なる個人と、各カメラのさまざまな背景を特徴付けることが多い。
さらに、実生活監視ビデオにおける暴力行為の迅速な検出は、有害な結果を防ぐために不可欠であり、メモリ使用量と計算コストの削減に最適化されたモデルが必要である。
これらの課題は、従来の行動認識手法の適用を複雑にしている。
これらの課題に対処するために、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する、新しい自己監視フレームワークJOSENetを紹介した。
提案モデルは,RGBフレームと光フローという2つの時空間ビデオストリームを処理する。
JOSENetは、ビデオセグメントあたりのフレームの4分の1しか利用せず、フレームレートの低減を図りながら、最先端の手法と比較してパフォーマンスを向上する。
ソースコードはhttps://github.com/ispamm/JOSENetで入手できる。
関連論文リスト
- Streamlining Video Analysis for Efficient Violence Detection [1.444946491007292]
本稿では,監視カメラが捉えたビデオフレームにおける自動暴力検出の課題に対処する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)に基づくモデルX3Dを用いてこの問題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-11-29T06:32:36Z) - Video Vision Transformers for Violence Detection [0.0]
提案手法では,対戦や敵対的な動き,暴力的な出来事をビデオシーケンスで正確に識別できる,新しいエンドツーエンドのディープラーニングベースビデオビジョントランスフォーマー(ViViT)を用いている。
評価結果はその後、地元の関係者に送信され、キャプチャされたビデオを分析することができる。
論文 参考訳(メタデータ) (2022-09-08T04:44:01Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Enhanced Few-shot Learning for Intrusion Detection in Railway Video
Surveillance [16.220077781635748]
拡張モデル非依存メタラーナーは、オリジナルビデオフレームと、ビデオから抽出されたトラック領域のセグメンテッドマスクの両方を用いて訓練される。
解析結果から,拡張メタラーナーは,新たに収集したビデオフレームのサンプルをわずかに残さず,見知らぬシーンに適応できることが示唆された。
論文 参考訳(メタデータ) (2020-11-09T08:59:15Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-04-02T14:29:27Z) - Vision-based Fight Detection from Surveillance Cameras [6.982738885923204]
本稿では,LSTMに基づく戦闘シーン分類問題の解法について検討する。
新たなデータセットが収集され、YouTubeで利用可能な監視カメラビデオの戦闘シーンで構成されている。
提案手法は,Xceptionモデル,Bi-LSTM,アテンションを統合して,戦闘シーン分類における最先端の精度を向上させる。
論文 参考訳(メタデータ) (2020-02-11T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。