論文の概要: PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset
- arxiv url: http://arxiv.org/abs/2405.08838v1
- Date: Tue, 14 May 2024 06:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:15:00.927818
- Title: PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset
- Title(参考訳): PolyGlotFake: マルチ言語とマルチモーダルのDeepFakeデータセット
- Authors: Yang Hou, Haitao Fu, Chuankai Chen, Zida Li, Haoyu Zhang, Jianjun Zhao,
- Abstract要約: 音声と視覚の両方を操る マルチモーダル・ディープフェイクは 公衆の懸念を増している
このギャップに対処するために、新しい多言語、多モーダルなディープフェイクデータセット、PolyGlotFakeを提案する。
これには、7つの言語のコンテンツが含まれており、様々な最先端で人気のあるText-to-Speech、音声のクローン、リップシンク技術を使って作成されている。
- 参考スコア(独自算出の注目度): 7.952304417617302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of generative AI, multimodal deepfakes, which manipulate both audio and visual modalities, have drawn increasing public concern. Currently, deepfake detection has emerged as a crucial strategy in countering these growing threats. However, as a key factor in training and validating deepfake detectors, most existing deepfake datasets primarily focus on the visual modal, and the few that are multimodal employ outdated techniques, and their audio content is limited to a single language, thereby failing to represent the cutting-edge advancements and globalization trends in current deepfake technologies. To address this gap, we propose a novel, multilingual, and multimodal deepfake dataset: PolyGlotFake. It includes content in seven languages, created using a variety of cutting-edge and popular Text-to-Speech, voice cloning, and lip-sync technologies. We conduct comprehensive experiments using state-of-the-art detection methods on PolyGlotFake dataset. These experiments demonstrate the dataset's significant challenges and its practical value in advancing research into multimodal deepfake detection.
- Abstract(参考訳): 生成AIの急速な進歩に伴い、音声と視覚の両方を操作できるマルチモーダルディープフェイクが、公衆の関心を喚起している。
現在、ディープフェイク検出は、これらの増大する脅威に対処するための重要な戦略として現れています。
しかし、ディープフェイク検出のトレーニングや検証において重要な要素として、既存のディープフェイクデータセットのほとんどは視覚的モーダルに重点を置いており、マルチモーダルである少数は時代遅れの手法を採用しており、オーディオコンテンツは単一の言語に限られており、現在のディープフェイク技術における最先端の進歩とグローバリゼーショントレンドを表現できない。
このギャップに対処するため、我々は新しい多言語、多モーダルなディープフェイクデータセットPolyGlotFakeを提案する。
これには、7つの言語のコンテンツが含まれており、様々な最先端で人気のあるText-to-Speech、音声のクローン、リップシンク技術を使って作成されている。
我々はPolyGlotFakeデータセットの最先端検出手法を用いて総合的な実験を行う。
これらの実験は、マルチモーダルディープフェイク検出の研究を進める上で、データセットの重要な課題とその実用的価値を実証する。
関連論文リスト
- Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。
ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。
本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文 参考訳(メタデータ) (2024-11-12T09:02:11Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。
我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。
提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文 参考訳(メタデータ) (2024-07-31T12:22:57Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。
この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。
本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-03-26T17:12:34Z) - Linguistic Profiling of Deepfakes: An Open Database for Next-Generation
Deepfake Detection [40.20982463380279]
本稿では,Deepfake データベース (DFLIP-3K) を提案する。
約3K生成モデルから約300Kの多様なディープフェイクサンプルが含まれており、この文献で最も多くのディープフェイクモデルがある。
この2つの特徴により、DFLIP-3Kはディープフェイクの言語プロファイリングの進歩を促進するベンチマークを開発することができる。
論文 参考訳(メタデータ) (2024-01-04T16:19:52Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。