論文の概要: Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios
- arxiv url: http://arxiv.org/abs/2004.01023v1
- Date: Thu, 2 Apr 2020 14:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 13:23:02.397120
- Title: Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios
- Title(参考訳): テロ後攻撃シナリオ調査のためのマルチモーダルビデオ鑑識プラットフォーム
- Authors: Alexander Schindler, Andrew Lindley, Anahid Jalali, Martin Boyer,
Sergiu Gordea, Ross King
- Abstract要約: 大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
- 参考スコア(独自算出の注目度): 55.82693757287532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The forensic investigation of a terrorist attack poses a significant
challenge to the investigative authorities, as often several thousand hours of
video footage must be viewed. Large scale Video Analytic Platforms (VAP) assist
law enforcement agencies (LEA) in identifying suspects and securing evidence.
Current platforms focus primarily on the integration of different computer
vision methods and thus are restricted to a single modality. We present a video
analytic platform that integrates visual and audio analytic modules and fuses
information from surveillance cameras and video uploads from eyewitnesses.
Videos are analyzed according their acoustic and visual content. Specifically,
Audio Event Detection is applied to index the content according to
attack-specific acoustic concepts. Audio similarity search is utilized to
identify similar video sequences recorded from different perspectives. Visual
object detection and tracking are used to index the content according to
relevant concepts. Innovative user-interface concepts are introduced to harness
the full potential of the heterogeneous results of the analytical modules,
allowing investigators to more quickly follow-up on leads and eyewitness
reports.
- Abstract(参考訳): テロ攻撃に関する法医学的な調査は、数千時間の映像を見る必要があるため、捜査当局にとって重大な課題となっている。
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
現在のプラットフォームは、主に異なるコンピュータビジョンメソッドの統合にフォーカスしており、単一のモダリティに制限されている。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者の映像アップロードを融合するビデオ分析プラットフォームを提案する。
映像は、その音響的および視覚的内容に基づいて分析される。
具体的には、攻撃固有の音響概念に従ってコンテンツをインデックスするためにオーディオイベント検出を適用する。
音声類似度探索は、異なる視点から記録された類似のビデオシーケンスを特定するために利用される。
ビジュアルオブジェクト検出とトラッキングは、関連する概念に従ってコンテンツをインデックスするために使用される。
分析モジュールの不均一な結果の可能性をフル活用するために、革新的なユーザインタフェースの概念が導入され、調査員はより迅速にリードと目撃レポートをフォローアップすることができる。
関連論文リスト
- Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Self-Supervised Video Forensics by Audio-Visual Anomaly Detection [19.842795378751923]
操作されたビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
本稿では,これらの不整合を識別できる異常検出に基づくビデオ法医学手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて、自動回帰モデルを訓練し、音声・視覚的特徴のシーケンスを生成する。
論文 参考訳(メタデータ) (2023-01-04T18:59:49Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。