論文の概要: Video Vision Transformers for Violence Detection
- arxiv url: http://arxiv.org/abs/2209.03561v1
- Date: Thu, 8 Sep 2022 04:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:30:54.316005
- Title: Video Vision Transformers for Violence Detection
- Title(参考訳): 暴力検知用ビデオビジョントランスフォーマー
- Authors: Sanskar Singh, Shivaibhav Dewangan, Ghanta Sai Krishna, Vandit Tyagi,
Sainath Reddy
- Abstract要約: 提案手法では,対戦や敵対的な動き,暴力的な出来事をビデオシーケンスで正確に識別できる,新しいエンドツーエンドのディープラーニングベースビデオビジョントランスフォーマー(ViViT)を用いている。
評価結果はその後、地元の関係者に送信され、キャプチャされたビデオを分析することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Law enforcement and city safety are significantly impacted by detecting
violent incidents in surveillance systems. Although modern (smart) cameras are
widely available and affordable, such technological solutions are impotent in
most instances. Furthermore, personnel monitoring CCTV recordings frequently
show a belated reaction, resulting in the potential cause of catastrophe to
people and property. Thus automated detection of violence for swift actions is
very crucial. The proposed solution uses a novel end-to-end deep learning-based
video vision transformer (ViViT) that can proficiently discern fights, hostile
movements, and violent events in video sequences. The study presents utilizing
a data augmentation strategy to overcome the downside of weaker inductive
biasness while training vision transformers on a smaller training datasets. The
evaluated results can be subsequently sent to local concerned authority, and
the captured video can be analyzed. In comparison to state-of-theart (SOTA)
approaches the proposed method achieved auspicious performance on some of the
challenging benchmark datasets.
- Abstract(参考訳): 法執行機関と市の安全は、監視システムの暴力的な事件を検出することで著しく影響を受ける。
現代の(スマートな)カメラは広く利用可能で手頃な価格だが、ほとんどのケースではこのような技術的解決策は不適当である。
さらに、CCTV記録の人的監視は、しばしば遅れた反応を示し、人や財産に対する災害の潜在的な原因となる。
このように、迅速な行動に対する暴力の自動検出は非常に重要である。
提案手法では,対戦や敵の動き,暴力的な出来事をビデオシーケンスで正確に識別できる,新しいエンドツーエンドのディープラーニングベースビデオビジョントランスフォーマー(ViViT)を用いている。
本研究では,より小さなトレーニングデータセット上で視覚トランスフォーマーを訓練しながら,より弱い誘導バイアスの欠点を克服するためのデータ拡張戦略を提案する。
評価結果はその後、地元の関係者に送信され、キャプチャされたビデオを分析することができる。
state-of-theart (sota) のアプローチと比較して,提案手法は,いくつかの難解なベンチマークデータセットで好成績を得た。
関連論文リスト
- Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring [55.2480439325792]
我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出することができる。
組織化されたコホート内の参加者数を見積もることができます。
論文 参考訳(メタデータ) (2024-08-06T22:09:50Z) - JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos [4.94659999696881]
監視ビデオにおける暴力検出は、様々な実戦シーンのような追加の問題を提示する。
本稿では、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する自己監視フレームワークJOSENetを紹介する。
論文 参考訳(メタデータ) (2024-05-05T15:01:00Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - CCTV-Gun: Benchmarking Handgun Detection in CCTV Images [59.24281591714385]
銃の暴力は重要なセキュリティ問題であり、コンピュータビジョンコミュニティが効果的な銃検出アルゴリズムを開発することが必須である。
実際のCCTV画像から銃を検出することは、未だに困難で未調査の課題である。
我々は,実世界のCCTV画像における拳銃検出の課題に対処するベンチマーク「textbfCCTV-Gun」を提案する。
論文 参考訳(メタデータ) (2023-03-19T16:17:35Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - SSIVD-Net: A Novel Salient Super Image Classification & Detection
Technique for Weaponized Violence [3.651114792588495]
CCTV映像における暴力や武器による暴力の検出には、包括的なアプローチが必要である。
本稿では,emphSmart-City CCTV Violence Detection (SCVD)データセットを紹介する。
我々はemphSSIVD-Net(textbfViolence textbfDetection用textbfSalient-textbfSuper-textbfImage)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-07-26T12:31:01Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - Video Violence Recognition and Localization using a Semi-Supervised
Hard-Attention Model [0.0]
暴力の監視と監視システムは、コミュニティを安全にし、命を救うことができる。
現在の最先端のディープラーニングによるビデオ暴力認識の精度とパフォーマンスの向上により、監視システムはより信頼性が高く、スケーラブルになる。
提案手法の主な貢献は,RWF,Hockey,Moviesのデータセットにおける最先端の精度を実現することである。
論文 参考訳(メタデータ) (2022-02-04T16:15:26Z) - Real Time Action Recognition from Video Footage [0.5219568203653523]
ビデオ監視カメラは犯罪を検知する新しい次元を追加した。
本研究は、暴力行為を検出するための自律監視のための堅牢なパイプラインを確保するために、最先端のディープラーニング手法を統合することに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-13T07:27:41Z) - Training-free Monocular 3D Event Detection System for Traffic
Surveillance [93.65240041833319]
既存のイベント検出システムは、主に学習ベースであり、大量のトレーニングデータが利用可能な場合、十分なパフォーマンスを実現している。
現実のシナリオでは、十分なラベル付きトレーニングデータの収集は高価であり、時には不可能である。
本稿では,交通監視のためのトレーニング不要な単眼3Dイベント検出システムを提案する。
論文 参考訳(メタデータ) (2020-02-01T04:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。