論文の概要: DeepSpeak Dataset v1.0
- arxiv url: http://arxiv.org/abs/2408.05366v1
- Date: Fri, 9 Aug 2024 22:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-13 19:21:55.228733
- Title: DeepSpeak Dataset v1.0
- Title(参考訳): DeepSpeak Dataset v1.0
- Authors: Sarah Barrington, Matyas Bohacek, Hany Farid,
- Abstract要約: ウェブカメラの前で話し、身振りで示す人々の、リアルタイムおよびディープフェイク映像の大規模なデータセットについて述べる。
このデータセットの最初のバージョンにおける実際のビデオは、20ドル(約2万2000円)の個人による9ドル(約9400円)の映像で構成されている。
25時間以上の映像で構成されたフェイクビデオは、さまざまな最先端のフェイススワップと、自然とAIが生成する音声によるリップシンクのディープフェイクで構成されている。
- 参考スコア(独自算出の注目度): 11.661238776379115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We describe a large-scale dataset--{\em DeepSpeak}--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of $9$ hours of footage from $220$ diverse individuals. Constituting more than 25 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered.
- Abstract(参考訳): ウェブカメラの前で話し、身振りで示す人々の実像とディープフェイク映像の大規模なデータセット、-{\em DeepSpeak}について説明する。
このデータセットの最初のバージョンにおける実際のビデオは、20ドル(約2万2000円)の個人による9ドル(約9400円)の映像で構成されている。
25時間以上の映像で構成されたフェイクビデオは、さまざまな最先端のフェイススワップと、自然とAIが生成する音声によるリップシンクのディープフェイクで構成されている。
私たちは、このデータセットの将来バージョンを、異なる、そして更新されたディープフェイク技術でリリースする予定です。
このデータセットは、研究および非商用用途で自由に利用でき、商用利用の要求も考慮される。
関連論文リスト
- Evaluating Deepfake Detectors in the Wild [0.0]
本研究では,最新のディープフェイク検知装置の評価を行い,実世界のシナリオを模倣してディープフェイク検出を行う新しいテスト手法を提案する。
我々の分析によると、ディープフェイクの検出は依然として難しい課題である。
JPEG圧縮や画像強調などの基本的な画像操作は、モデルの性能を著しく低下させる。
論文 参考訳(メタデータ) (2025-07-29T15:17:00Z) - Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。
偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。
我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-11-29T08:29:25Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset [7.952304417617302]
音声と視覚の両方を操る マルチモーダル・ディープフェイクは 公衆の懸念を増している
このギャップに対処するために、新しい多言語、多モーダルなディープフェイクデータセット、PolyGlotFakeを提案する。
これには、7つの言語のコンテンツが含まれており、様々な最先端で人気のあるText-to-Speech、音声のクローン、リップシンク技術を使って作成されている。
論文 参考訳(メタデータ) (2024-05-14T06:40:05Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Linguistic Profiling of Deepfakes: An Open Database for Next-Generation
Deepfake Detection [40.20982463380279]
本稿では,Deepfake データベース (DFLIP-3K) を提案する。
約3K生成モデルから約300Kの多様なディープフェイクサンプルが含まれており、この文献で最も多くのディープフェイクモデルがある。
この2つの特徴により、DFLIP-3Kはディープフェイクの言語プロファイリングの進歩を促進するベンチマークを開発することができる。
論文 参考訳(メタデータ) (2024-01-04T16:19:52Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - DeePhy: On Deepfake Phylogeny [58.01631614114075]
DeePhyは、新しいDeepfake Phylogenyデータセットである。
6つのディープフェイク検出アルゴリズムを用いて,DeePhyデータセットのベンチマークを示す。
論文 参考訳(メタデータ) (2022-09-19T15:30:33Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - Challenges and Solutions in DeepFakes [8.401473551081747]
ディープラーニングを利用したアプリケーションが最近登場したのがDeep Fakeだ。
これは、人間が本物と区別できない偽のイメージやビデオを作成するのに役立つ。
Nvidiaが収集したFlickrのデータセットから70万の顔と、スタイルのGANによって生成された100万の偽の顔からサンプリングされた70万の偽の顔を含む、140万の顔と偽の顔のデータセットを紹介した。
モデルが実際の顔や偽の顔を識別できるように、データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-09-12T01:22:12Z) - FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset [21.199288324085444]
近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:49:36Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z) - Deepfake Video Forensics based on Transfer Learning [0.0]
ディープフェイク」は、人間が本物のものと区別できない偽のイメージやビデオを作ることができる。
本稿では,各ディープフェイク映像フレームの特徴を把握するために,画像分類モデルを再学習する方法について述べる。
Deepfakeのビデオをチェックすると、87%以上の精度が得られた。
論文 参考訳(メタデータ) (2020-04-29T13:21:28Z) - DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery
Detection [93.24684159708114]
DeeperForensics-1.0は、これまでで最大の顔偽造検出データセットであり、合計で1760万フレームの6万本のビデオで構成されている。
生成されたビデオの品質は、既存のデータセットよりも優れており、ユーザ研究によって検証されている。
このベンチマークには隠れたテストセットがあり、人間の評価において高い認識スコアを達成する操作されたビデオを含んでいる。
論文 参考訳(メタデータ) (2020-01-09T14:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。