論文の概要: JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos
- arxiv url: http://arxiv.org/abs/2405.02961v1
- Date: Sun, 5 May 2024 15:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 17:30:59.357680
- Title: JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos
- Title(参考訳): JOSENet:サーベイランスビデオにおけるバイオレンス検出のためのジョイントストリーム埋め込みネットワーク
- Authors: Pietro Nardelli, Danilo Comminiello,
- Abstract要約: 本稿では、監視ビデオにおける暴力検出のための新しい自己監視フレームワークJOSENetを紹介する。
JOSENetは、RGBフレームと光フローという2つのテンポラリなビデオストリームを受け取り、ビデオのための新たな正規化された自己教師付き学習アプローチを含む。
これは、ビデオセグメント当たりのフレーム数の4分の1とフレームレートの削減を必要としながら、自己監督された最先端手法と比較して、パフォーマンスの向上を提供する。
- 参考スコア(独自算出の注目度): 4.94659999696881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the ever-increasing availability of video surveillance cameras and the growing need for crime prevention, the violence detection task is attracting greater attention from the research community. With respect to other action recognition tasks, violence detection in surveillance videos shows additional issues, such as the presence of a significant variety of real fight scenes. Unfortunately, available datasets seem to be very small compared with other action recognition datasets. Moreover, in surveillance applications, people in the scenes always differ for each video and the background of the footage differs for each camera. Also, violent actions in real-life surveillance videos must be detected quickly to prevent unwanted consequences, thus models would definitely benefit from a reduction in memory usage and computational costs. Such problems make classical action recognition methods difficult to be adopted. To tackle all these issues, we introduce JOSENet, a novel self-supervised framework that provides outstanding performance for violence detection in surveillance videos. The proposed model receives two spatiotemporal video streams, i.e., RGB frames and optical flows, and involves a new regularized self-supervised learning approach for videos. JOSENet provides improved performance compared to self-supervised state-of-the-art methods, while requiring one-fourth of the number of frames per video segment and a reduced frame rate. The source code and the instructions to reproduce our experiments are available at https://github.com/ispamm/JOSENet.
- Abstract(参考訳): ビデオ監視カメラの普及と犯罪防止の必要性の高まりにより、暴力検出タスクは研究コミュニティから注目を集めている。
他の行動認識タスクに関しては、監視ビデオにおける暴力検出は、様々な実戦シーンの存在など、追加の問題を示している。
残念ながら、利用可能なデータセットは他のアクション認識データセットと比較して非常に小さいようだ。
さらに、監視アプリケーションでは、シーン内の人々は、常にビデオごとに異なり、ビデオの背景は、カメラごとに異なる。
また、リアルタイム監視ビデオにおける暴力行為は、望ましくない結果を防ぐために迅速に検出されなければならないため、モデルがメモリ使用量と計算コストの削減から確実に恩恵を受けるだろう。
このような問題により、古典的な行動認識手法の採用が困難になる。
これらの課題に対処するために、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する、新しい自己監視フレームワークJOSENetを紹介した。
提案モデルは、RGBフレームと光フローという2つの時空間ビデオストリームを受け取り、ビデオのための新たな正規化された自己教師付き学習アプローチを含む。
JOSENetは、ビデオセグメントあたりのフレーム数の4分の1とフレームレートの削減を必要としながら、自己管理された最先端の手法に比べてパフォーマンスが向上する。
ソースコードと実験を再現する指示はhttps://github.com/ispamm/JOSENet.comで公開されている。
関連論文リスト
- Video Vision Transformers for Violence Detection [0.0]
提案手法では,対戦や敵対的な動き,暴力的な出来事をビデオシーケンスで正確に識別できる,新しいエンドツーエンドのディープラーニングベースビデオビジョントランスフォーマー(ViViT)を用いている。
評価結果はその後、地元の関係者に送信され、キャプチャされたビデオを分析することができる。
論文 参考訳(メタデータ) (2022-09-08T04:44:01Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Detecting Violence in Video Based on Deep Features Fusion Technique [0.30458514384586394]
本研究では、2つの畳み込みニューラルネットワーク(CNN)の融合技術を用いて暴力を検出する新しい方法を提案する。
提案手法の性能は,検出精度の観点から3つの標準ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-04-15T12:51:20Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Enhanced Few-shot Learning for Intrusion Detection in Railway Video
Surveillance [16.220077781635748]
拡張モデル非依存メタラーナーは、オリジナルビデオフレームと、ビデオから抽出されたトラック領域のセグメンテッドマスクの両方を用いて訓練される。
解析結果から,拡張メタラーナーは,新たに収集したビデオフレームのサンプルをわずかに残さず,見知らぬシーンに適応できることが示唆された。
論文 参考訳(メタデータ) (2020-11-09T08:59:15Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-04-02T14:29:27Z) - Vision-based Fight Detection from Surveillance Cameras [6.982738885923204]
本稿では,LSTMに基づく戦闘シーン分類問題の解法について検討する。
新たなデータセットが収集され、YouTubeで利用可能な監視カメラビデオの戦闘シーンで構成されている。
提案手法は,Xceptionモデル,Bi-LSTM,アテンションを統合して,戦闘シーン分類における最先端の精度を向上させる。
論文 参考訳(メタデータ) (2020-02-11T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。