論文の概要: AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
- arxiv url: http://arxiv.org/abs/2311.15308v1
- Date: Sun, 26 Nov 2023 14:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:20:19.249236
- Title: AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
- Title(参考訳): AV-Deepfake1M:大規模LCM駆動型オーディオビジュアルディープフェイクデータセット
- Authors: Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav
Dhall, Kalin Stefanov
- Abstract要約: AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
- 参考スコア(独自算出の注目度): 20.524844110786663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection and localization of highly realistic deepfake audio-visual
content are challenging even for the most advanced state-of-the-art methods.
While most of the research efforts in this domain are focused on detecting
high-quality deepfake images and videos, only a few works address the problem
of the localization of small segments of audio-visual manipulations embedded in
real videos. In this research, we emulate the process of such content
generation and propose the AV-Deepfake1M dataset. The dataset contains
content-driven (i) video manipulations, (ii) audio manipulations, and (iii)
audio-visual manipulations for more than 2K subjects resulting in a total of
more than 1M videos. The paper provides a thorough description of the proposed
data generation pipeline accompanied by a rigorous analysis of the quality of
the generated data. The comprehensive benchmark of the proposed dataset
utilizing state-of-the-art deepfake detection and localization methods
indicates a significant drop in performance compared to previous datasets. The
proposed dataset will play a vital role in building the next-generation
deepfake localization methods. The dataset and associated code are available at
https://github.com/ControlNet/AV-Deepfake1M .
- Abstract(参考訳): 高度にリアルなディープフェイクな映像コンテンツの検出とローカライズは、最先端の最先端の手法でも困難である。
この領域における研究はほとんどが高品質なディープフェイク画像やビデオの検出に重点を置いているが、実際のビデオに埋め込まれたオーディオ視覚操作の小さな部分の局所化の問題に対処する研究はほとんどない。
本研究では,このようなコンテンツ生成の過程をエミュレートし,AV-Deepfake1Mデータセットを提案する。
データセットにはコンテンツ駆動
(i)ビデオ操作、
(ii)音声操作、及び
(iii) 2k以上の被写体に対する視聴覚操作により,合計100万以上の映像が得られた。
本稿では,提案するデータ生成パイプラインの詳細な記述と,生成されたデータの品質の厳密な解析について述べる。
最先端のディープフェイク検出とローカライズ手法を用いて提案したデータセットの総合ベンチマークは,従来のデータセットと比較して大幅な性能低下を示している。
提案したデータセットは、次世代のディープフェイクローカライゼーション手法を構築する上で重要な役割を果たす。
データセットと関連するコードはhttps://github.com/ControlNet/AV-Deepfake1Mで公開されている。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes [56.4361151691284]
PVDD(Practical Video Denoising dataset)は,200個のノイズクリーンな動的ビデオペアをsRGBおよびRAW形式で格納する。
限られた動き情報からなる既存のデータセットと比較すると、PVDDは自然な動きの変化する動的なシーンをカバーしている。
論文 参考訳(メタデータ) (2022-07-04T12:30:22Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。