論文の概要: AV-Deepfake1M++: A Large-Scale Audio-Visual Deepfake Benchmark with Real-World Perturbations
- arxiv url: http://arxiv.org/abs/2507.20579v1
- Date: Mon, 28 Jul 2025 07:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.966483
- Title: AV-Deepfake1M++: A Large-Scale Audio-Visual Deepfake Benchmark with Real-World Perturbations
- Title(参考訳): AV-Deepfake1M++: リアルタイム摂動を用いた大規模オーディオ-ビジュアルディープフェイクベンチマーク
- Authors: Zhixi Cai, Kartik Kuckreja, Shreya Ghosh, Akanksha Chuchra, Muhammad Haris Khan, Usman Tariq, Tom Gedeon, Abhinav Dhall,
- Abstract要約: 本稿では、AV-Deepfake1M++のベンチマークとともに、データ生成戦略の説明を含む。
このデータセットに基づいて、2025年の1M-Deepfakes Detection Challengeをホストします。
- 参考スコア(独自算出の注目度): 15.420752640434513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid surge of text-to-speech and face-voice reenactment models makes video fabrication easier and highly realistic. To encounter this problem, we require datasets that rich in type of generation methods and perturbation strategy which is usually common for online videos. To this end, we propose AV-Deepfake1M++, an extension of the AV-Deepfake1M having 2 million video clips with diversified manipulation strategy and audio-visual perturbation. This paper includes the description of data generation strategies along with benchmarking of AV-Deepfake1M++ using state-of-the-art methods. We believe that this dataset will play a pivotal role in facilitating research in Deepfake domain. Based on this dataset, we host the 2025 1M-Deepfakes Detection Challenge. The challenge details, dataset and evaluation scripts are available online under a research-only license at https://deepfakes1m.github.io/2025.
- Abstract(参考訳): テキスト音声と顔声の再現モデルの急速な増加は、ビデオの製作を容易にし、非常にリアルにする。
この問題に対処するためには、オンラインビデオによく見られる生成方法や摂動戦略に富んだデータセットが必要である。
そこで本研究では,AV-Deepfake1Mを拡張したAV-Deepfake1M++を提案する。
本稿では,最先端手法を用いたAV-Deepfake1M++のベンチマークとともに,データ生成戦略の説明を含む。
このデータセットは、Deepfakeドメインの研究を促進する上で、重要な役割を果たすと思います。
このデータセットに基づいて、2025年の1M-Deepfakes Detection Challengeをホストします。
課題の詳細、データセット、評価スクリプトは、リサーチのみのライセンスで、https://deepfakes1m.github.io/2025でオンラインで入手できる。
関連論文リスト
- DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection [21.703619021132333]
最近のDeepFake検出アプローチは、マルチモーダル(オーディオビデオ)脅威シナリオを探索している。
既存のデータセットには重大な問題がある。
我々は、Simple Multimodal BAseline (SIMBA)を導入し、将来的な緩和戦略を示す。
論文 参考訳(メタデータ) (2025-06-06T08:10:54Z) - 1M-Deepfakes Detection Challenge [31.994908331728958]
1M-Deepfakes Detection Challengeは、ディープフェイク操作の検出とローカライズのための高度な手法の開発に研究コミュニティを巻き込むように設計されている。
参加者はAV-Deepfake1Mデータセットにアクセスでき、評価のために推論結果を提出する必要がある。
この課題を通じて開発された方法論は、次世代のディープフェイク検出およびローカライゼーションシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-09-11T03:43:53Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - DeePhy: On Deepfake Phylogeny [58.01631614114075]
DeePhyは、新しいDeepfake Phylogenyデータセットである。
6つのディープフェイク検出アルゴリズムを用いて,DeePhyデータセットのベンチマークを示す。
論文 参考訳(メタデータ) (2022-09-19T15:30:33Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。