論文の概要: AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
- arxiv url: http://arxiv.org/abs/2311.15308v1
- Date: Sun, 26 Nov 2023 14:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:20:19.249236
- Title: AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
- Title(参考訳): AV-Deepfake1M:大規模LCM駆動型オーディオビジュアルディープフェイクデータセット
- Authors: Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav
Dhall, Kalin Stefanov
- Abstract要約: AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
- 参考スコア(独自算出の注目度): 20.524844110786663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection and localization of highly realistic deepfake audio-visual
content are challenging even for the most advanced state-of-the-art methods.
While most of the research efforts in this domain are focused on detecting
high-quality deepfake images and videos, only a few works address the problem
of the localization of small segments of audio-visual manipulations embedded in
real videos. In this research, we emulate the process of such content
generation and propose the AV-Deepfake1M dataset. The dataset contains
content-driven (i) video manipulations, (ii) audio manipulations, and (iii)
audio-visual manipulations for more than 2K subjects resulting in a total of
more than 1M videos. The paper provides a thorough description of the proposed
data generation pipeline accompanied by a rigorous analysis of the quality of
the generated data. The comprehensive benchmark of the proposed dataset
utilizing state-of-the-art deepfake detection and localization methods
indicates a significant drop in performance compared to previous datasets. The
proposed dataset will play a vital role in building the next-generation
deepfake localization methods. The dataset and associated code are available at
https://github.com/ControlNet/AV-Deepfake1M .
- Abstract(参考訳): 高度にリアルなディープフェイクな映像コンテンツの検出とローカライズは、最先端の最先端の手法でも困難である。
この領域における研究はほとんどが高品質なディープフェイク画像やビデオの検出に重点を置いているが、実際のビデオに埋め込まれたオーディオ視覚操作の小さな部分の局所化の問題に対処する研究はほとんどない。
本研究では,このようなコンテンツ生成の過程をエミュレートし,AV-Deepfake1Mデータセットを提案する。
データセットにはコンテンツ駆動
(i)ビデオ操作、
(ii)音声操作、及び
(iii) 2k以上の被写体に対する視聴覚操作により,合計100万以上の映像が得られた。
本稿では,提案するデータ生成パイプラインの詳細な記述と,生成されたデータの品質の厳密な解析について述べる。
最先端のディープフェイク検出とローカライズ手法を用いて提案したデータセットの総合ベンチマークは,従来のデータセットと比較して大幅な性能低下を示している。
提案したデータセットは、次世代のディープフェイクローカライゼーション手法を構築する上で重要な役割を果たす。
データセットと関連するコードはhttps://github.com/ControlNet/AV-Deepfake1Mで公開されている。
関連論文リスト
- 1M-Deepfakes Detection Challenge [31.994908331728958]
1M-Deepfakes Detection Challengeは、ディープフェイク操作の検出とローカライズのための高度な手法の開発に研究コミュニティを巻き込むように設計されている。
参加者はAV-Deepfake1Mデータセットにアクセスでき、評価のために推論結果を提出する必要がある。
この課題を通じて開発された方法論は、次世代のディープフェイク検出およびローカライゼーションシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-09-11T03:43:53Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes [56.4361151691284]
PVDD(Practical Video Denoising dataset)は,200個のノイズクリーンな動的ビデオペアをsRGBおよびRAW形式で格納する。
限られた動き情報からなる既存のデータセットと比較すると、PVDDは自然な動きの変化する動的なシーンをカバーしている。
論文 参考訳(メタデータ) (2022-07-04T12:30:22Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。