論文の概要: The DeepSpeak Dataset
- arxiv url: http://arxiv.org/abs/2408.05366v4
- Date: Sat, 26 Jul 2025 19:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:44.662521
- Title: The DeepSpeak Dataset
- Title(参考訳): DeepSpeakデータセット
- Authors: Sarah Barrington, Matyas Bohacek, Hany Farid,
- Abstract要約: DeepSpeakは、100時間以上の本物とディープフェイクのオーディオヴィジュアルコンテンツからなる多種多様なマルチモーダルデータセットである。
i) カスタム構築したデータ収集ツールを用いて500人以上の参加者から収集された50時間以上の実記録データ,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>E</i>,<i>I>I</i>,<i>I</i>,<i>,<i>I</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>E</i>,<i>I</i>,<i>E</i>,<i>,<i>I</i>,<i>,<i>I</i>,<i>,<i>I</i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,<i>,
- 参考スコア(独自算出の注目度): 11.661238776379115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deepfakes represent a growing concern across domains such as impostor hiring, fraud, and disinformation. Despite significant efforts to develop robust detection classifiers to distinguish the real from the fake, commonly used training datasets remain inadequate: relying on low-quality and outdated deepfake generators, consisting of content scraped from online repositories without participant consent, lacking in multimodal coverage, and rarely employing identity-matching protocols to ensure realistic fakes. To overcome these limitations, we present the DeepSpeak dataset, a diverse and multimodal dataset comprising over 100 hours of authentic and deepfake audiovisual content. We contribute: i) more than 50 hours of real, self-recorded data collected from 500 diverse and consenting participants using a custom-built data collection tool, ii) more than 50 hours of state-of-the-art audio and visual deepfakes generated using 14 video synthesis engines and three voice cloning engines, and iii) an embedding-based, identity-matching approach to ensure the creation of convincing, high-quality identity swaps that realistically simulate adversarial deepfake attacks. We also perform large-scale evaluations of state-of-the-art deepfake detectors and show that, without retraining, these detectors fail to generalize to the DeepSpeak dataset. These evaluations highlight the importance of a large and diverse dataset containing deepfakes from the latest generative-AI tools.
- Abstract(参考訳): ディープフェイク(Deepfakes)は、詐欺師の雇用、詐欺、偽情報といった分野における関心の高まりを表している。
低品質で時代遅れのディープフェイクジェネレータに依存し、同意なくオンラインリポジトリからスクラップされたコンテンツで構成され、マルチモーダルカバレッジが欠如しており、現実的なフェイクを保証するためにIDマッチングプロトコルが採用されることはめったにない。
これらの制限を克服するために、100時間以上の真正および深層映像コンテンツからなる多様なマルチモーダルデータセットであるDeepSpeakデータセットを提示する。
コントリビューション:
一 カスタマイズしたデータ収集ツールを用いて、500人の多様で同意した参加者から収集した実記録データの50時間以上。
ii)14個のビデオ合成エンジンと3個の音声クローニングエンジンを用いた50時間以上の最先端オーディオ・ビジュアルディープフェイク
三 敵のディープフェイク攻撃を現実的にシミュレートする、説得力のある高品質のアイデンティティスワップの作成を確保するための埋め込み型アイデンティティマッチングアプローチ。
我々はまた、最先端のディープフェイク検出器の大規模評価を行い、再トレーニングなしでは、これらの検出器がDeepSpeakデータセットに一般化できないことを示す。
これらの評価は、最新の生成AIツールからのディープフェイクを含む大規模で多様なデータセットの重要性を強調している。
関連論文リスト
- Evaluating Deepfake Detectors in the Wild [0.0]
本研究では,最新のディープフェイク検知装置の評価を行い,実世界のシナリオを模倣してディープフェイク検出を行う新しいテスト手法を提案する。
我々の分析によると、ディープフェイクの検出は依然として難しい課題である。
JPEG圧縮や画像強調などの基本的な画像操作は、モデルの性能を著しく低下させる。
論文 参考訳(メタデータ) (2025-07-29T15:17:00Z) - Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。
偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。
我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-11-29T08:29:25Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset [7.952304417617302]
音声と視覚の両方を操る マルチモーダル・ディープフェイクは 公衆の懸念を増している
このギャップに対処するために、新しい多言語、多モーダルなディープフェイクデータセット、PolyGlotFakeを提案する。
これには、7つの言語のコンテンツが含まれており、様々な最先端で人気のあるText-to-Speech、音声のクローン、リップシンク技術を使って作成されている。
論文 参考訳(メタデータ) (2024-05-14T06:40:05Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Linguistic Profiling of Deepfakes: An Open Database for Next-Generation
Deepfake Detection [40.20982463380279]
本稿では,Deepfake データベース (DFLIP-3K) を提案する。
約3K生成モデルから約300Kの多様なディープフェイクサンプルが含まれており、この文献で最も多くのディープフェイクモデルがある。
この2つの特徴により、DFLIP-3Kはディープフェイクの言語プロファイリングの進歩を促進するベンチマークを開発することができる。
論文 参考訳(メタデータ) (2024-01-04T16:19:52Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - DeePhy: On Deepfake Phylogeny [58.01631614114075]
DeePhyは、新しいDeepfake Phylogenyデータセットである。
6つのディープフェイク検出アルゴリズムを用いて,DeePhyデータセットのベンチマークを示す。
論文 参考訳(メタデータ) (2022-09-19T15:30:33Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - Challenges and Solutions in DeepFakes [8.401473551081747]
ディープラーニングを利用したアプリケーションが最近登場したのがDeep Fakeだ。
これは、人間が本物と区別できない偽のイメージやビデオを作成するのに役立つ。
Nvidiaが収集したFlickrのデータセットから70万の顔と、スタイルのGANによって生成された100万の偽の顔からサンプリングされた70万の偽の顔を含む、140万の顔と偽の顔のデータセットを紹介した。
モデルが実際の顔や偽の顔を識別できるように、データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-09-12T01:22:12Z) - FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset [21.199288324085444]
近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:49:36Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z) - Deepfake Video Forensics based on Transfer Learning [0.0]
ディープフェイク」は、人間が本物のものと区別できない偽のイメージやビデオを作ることができる。
本稿では,各ディープフェイク映像フレームの特徴を把握するために,画像分類モデルを再学習する方法について述べる。
Deepfakeのビデオをチェックすると、87%以上の精度が得られた。
論文 参考訳(メタデータ) (2020-04-29T13:21:28Z) - DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery
Detection [93.24684159708114]
DeeperForensics-1.0は、これまでで最大の顔偽造検出データセットであり、合計で1760万フレームの6万本のビデオで構成されている。
生成されたビデオの品質は、既存のデータセットよりも優れており、ユーザ研究によって検証されている。
このベンチマークには隠れたテストセットがあり、人間の評価において高い認識スコアを達成する操作されたビデオを含んでいる。
論文 参考訳(メタデータ) (2020-01-09T14:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。