論文の概要: Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization
- arxiv url: http://arxiv.org/abs/2305.01979v3
- Date: Sun, 16 Jul 2023 07:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:30:39.577124
- Title: Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization
- Title(参考訳): Glitch in the Matrix: コンテンツ駆動型オーディオ画像偽造検出と位置推定のための大規模ベンチマーク
- Authors: Zhixi Cai, Shreya Ghosh, Abhinav Dhall, Tom Gedeon, Kalin Stefanov,
Munawar Hayat
- Abstract要約: 新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
- 参考スコア(独自算出の注目度): 20.46053083071752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most deepfake detection methods focus on detecting spatial and/or
spatio-temporal changes in facial attributes and are centered around the binary
classification task of detecting whether a video is real or fake. This is
because available benchmark datasets contain mostly visual-only modifications
present in the entirety of the video. However, a sophisticated deepfake may
include small segments of audio or audio-visual manipulations that can
completely change the meaning of the video content. To addresses this gap, we
propose and benchmark a new dataset, Localized Audio Visual DeepFake (LAV-DF),
consisting of strategic content-driven audio, visual and audio-visual
manipulations. The proposed baseline method, Boundary Aware Temporal Forgery
Detection (BA-TFD), is a 3D Convolutional Neural Network-based architecture
which effectively captures multimodal manipulations. We further improve (i.e.
BA-TFD+) the baseline method by replacing the backbone with a Multiscale Vision
Transformer and guide the training process with contrastive, frame
classification, boundary matching and multimodal boundary matching loss
functions. The quantitative analysis demonstrates the superiority of BA-TFD+ on
temporal forgery localization and deepfake detection tasks using several
benchmark datasets including our newly proposed dataset. The dataset, models
and code are available at https://github.com/ControlNet/LAV-DF.
- Abstract(参考訳): 多くのディープフェイク検出方法は、顔属性の空間的および/または時空間的変化の検出に重点を置いており、ビデオが本物か偽かを検出するバイナリ分類タスクを中心にしている。
これは、利用可能なベンチマークデータセットがビデオ全体に存在するビジュアルのみの修正を含んでいるためである。
しかし、洗練されたディープフェイクには、ビデオコンテンツの意味を完全に変えることができるオーディオまたはオーディオ視覚操作の小さな部分が含まれるかもしれない。
このギャップに対処するために,我々は,戦略的コンテンツ駆動型オーディオ,ビジュアルおよびオーディオビジュアル操作からなる,新たなデータセットであるlocalized audio visual deepfake (lav-df)を提案し,ベンチマークを行った。
提案手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は,マルチモーダル操作を効果的に捉える3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
さらに,バックボーンをマルチスケールビジョン変換器に置き換え,コントラスト,フレーム分類,バウンダリマッチング,マルチモーダル境界マッチング損失関数を用いてトレーニングプロセスを導出することにより,ベースライン法をさらに改良する(BA-TFD+)。
この定量分析は,新たに提案したデータセットを含むいくつかのベンチマークデータセットを用いて,時間的偽造位置推定および深度検出タスクにおけるBA-TFD+の優位性を示す。
データセット、モデル、コードはhttps://github.com/controlnet/lav-dfで入手できる。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。