論文の概要: Not only Look, but also Listen: Learning Multimodal Violence Detection
under Weak Supervision
- arxiv url: http://arxiv.org/abs/2007.04687v2
- Date: Mon, 13 Jul 2020 04:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:43:23.382780
- Title: Not only Look, but also Listen: Learning Multimodal Violence Detection
under Weak Supervision
- Title(参考訳): 見た目だけでなく聞き取りも:弱視下でのマルチモーダルビオレンス検出の学習
- Authors: Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu,
Zhiwei Yang
- Abstract要約: われわれはまず、XD-Violenceという大規模なマルチシーンデータセットを217時間でリリースした。
ビデオスニペット間の異なる関係を捉え,特徴を統合するために,3つの並列分岐を含むニューラルネットワークを提案する。
提案手法は,我々のリリースしたデータセットや他の既存のベンチマークにおいて,最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 10.859792341257931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Violence detection has been studied in computer vision for years. However,
previous work are either superficial, e.g., classification of short-clips, and
the single scenario, or undersupplied, e.g., the single modality, and
hand-crafted features based multimodality. To address this problem, in this
work we first release a large-scale and multi-scene dataset named XD-Violence
with a total duration of 217 hours, containing 4754 untrimmed videos with audio
signals and weak labels. Then we propose a neural network containing three
parallel branches to capture different relations among video snippets and
integrate features, where holistic branch captures long-range dependencies
using similarity prior, localized branch captures local positional relation
using proximity prior, and score branch dynamically captures the closeness of
predicted score. Besides, our method also includes an approximator to meet the
needs of online detection. Our method outperforms other state-of-the-art
methods on our released dataset and other existing benchmark. Moreover,
extensive experimental results also show the positive effect of multimodal
(audio-visual) input and modeling relationships. The code and dataset will be
released in https://roc-ng.github.io/XD-Violence/.
- Abstract(参考訳): 暴力検出はコンピュータビジョンで長年研究されてきた。
しかし、以前の研究は表面的で、例えばショートクリップの分類や、単独のシナリオ、または供給不足、例えば、単一のモダリティ、手作りの特徴に基づくマルチモーダルである。
この問題に対処するため、我々はまずXD-Violenceという大規模なマルチシーンデータセットを217時間でリリースし、オーディオ信号と弱いラベルを備えた4754の未トリミングビデオを含む。
次に,ビデオスニペット間の異なる関係を捉えるために,3つの並列分岐を含むニューラルネットワークを提案する。そこでは,局所分岐は類似度を先行して長距離依存性を捉え,局所分岐は近接先行を用いて局所的な位置関係を捉え,スコア分岐は予測スコアの近接性を動的にキャプチャする。
また,本手法は,オンライン検出のニーズを満たす近似器も備えている。
提案手法は,我々のリリースデータセットや他の既存のベンチマークにおいて,最先端の手法よりも優れている。
さらに,マルチモーダル入力(視聴覚)とモデリング関係の正の効果についても実験的に検討した。
コードとデータセットはhttps://roc-ng.github.io/XD-Violence/でリリースされる。
関連論文リスト
- Centre Stage: Centricity-based Audio-Visual Temporal Action Detection [26.42447737005981]
我々は,2つのモードを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを組み込む戦略を探求する。
本稿では,アクションセンタへのタイムステップの近さを推定する新しいネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-28T03:02:00Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation [121.5383855764944]
コントラッシブな自己教師学習を用いて、シングルビュービデオからリッチな潜伏ベクトルを抽出する。
また,CSSを時間変化の特徴のみに適用すると同時に,入力を再構築し,近辺と遠方の特徴間の段階的な遷移を促すことにより,リッチな潜伏空間が得られることを示す。
本手法は他の教師なしシングルビュー手法よりも優れており,マルチビュー手法の性能と一致している。
論文 参考訳(メタデータ) (2020-12-02T20:27:35Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Look and Listen: A Multi-modality Late Fusion Approach to Scene
Classification for Autonomous Machines [5.452798072984612]
本研究の新規性は,画像と音声が深層融合の過程において相互に補完するシーン分類への多様性アプローチである。
このアプローチは、16,000のデータオブジェクトの2つの同期およびバランスの取れたデータセットからなる、難しい分類問題に対して実証される。
単一モダリティが異常なデータポイントによって混同される可能性がある状況は、より高次な統合によって修正されていることを示す。
論文 参考訳(メタデータ) (2020-07-11T16:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。