論文の概要: Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection
- arxiv url: http://arxiv.org/abs/2505.16512v4
- Date: Tue, 03 Jun 2025 06:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.619282
- Title: Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection
- Title(参考訳): 顔スワッピングを超えて:マルチモーダルディープフェイク検出のための拡散型デジタルヒューマンベンチマーク
- Authors: Jiaxin Liu, Jia Wang, Saihui Hou, Min Ren, Huijia Wu, Long Ma, Renwang Pei, Zhaofeng He,
- Abstract要約: 拡散モデルに基づく大規模マルチモーダルデジタルヒューマンフォージェリデータセットであるDigiFakeAVを紹介する。
私たちのデータセットは6万のビデオ(840万フレーム)で構成され、複数の国籍、肌の色、性別、現実世界のシナリオをカバーしています。
ユーザ調査によると、DigiFakeAVの参加者による誤認識率は最大68%に達する。
DigiShieldは、ビデオの3Dセマンティック特徴と音声のセマンティック音響特徴を共同でモデル化することにより、DigiFakeAV上での最先端のSOTA(State-of-thetemporal-art)パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.755117818702587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the explosive advancement of deepfake technology has posed a critical and escalating threat to public security: diffusion-based digital human generation. Unlike traditional face manipulation methods, such models can generate highly realistic videos with consistency via multimodal control signals. Their flexibility and covertness pose severe challenges to existing detection strategies. To bridge this gap, we introduce DigiFakeAV, the new large-scale multimodal digital human forgery dataset based on diffusion models. Leveraging five of the latest digital human generation methods and a voice cloning method, we systematically construct a dataset comprising 60,000 videos (8.4 million frames), covering multiple nationalities, skin tones, genders, and real-world scenarios, significantly enhancing data diversity and realism. User studies demonstrate that the misrecognition rate by participants for DigiFakeAV reaches as high as 68%. Moreover, the substantial performance degradation of existing detection models on our dataset further highlights its challenges. To address this problem, we propose DigiShield, an effective detection baseline based on spatiotemporal and cross-modal fusion. By jointly modeling the 3D spatiotemporal features of videos and the semantic-acoustic features of audio, DigiShield achieves state-of-the-art (SOTA) performance on the DigiFakeAV and shows strong generalization on other datasets.
- Abstract(参考訳): 近年、ディープフェイク技術の爆発的な進歩により、公共の安全に対する危機的かつエスカレートする脅威が生まれている。
従来の顔操作法とは異なり、このようなモデルはマルチモーダル制御信号を介して一貫性のある非常にリアルなビデオを生成することができる。
その柔軟性と隠蔽性は、既存の検出戦略に深刻な課題をもたらす。
このギャップを埋めるために,拡散モデルに基づく大規模デジタルヒューマンフォージェリデータセットであるDigiFakeAVを導入する。
最新のデジタル・ヒューマン・ジェネレーションの5つの手法と音声のクローニング手法を利用して、6万本のビデオ(840万フレーム)からなるデータセットを体系的に構築し、複数の国籍、肌の色、性別、現実世界のシナリオをカバーし、データの多様性とリアリズムを著しく向上させた。
ユーザ調査によると、DigiFakeAVの参加者による誤認識率は最大68%に達する。
さらに、データセット上の既存の検出モデルの大幅なパフォーマンス劣化は、その課題をさらに浮き彫りにする。
この問題に対処するため,時空間核融合とクロスモーダル融合に基づく効果的な検出ベースラインであるDigiShieldを提案する。
DigiShieldはビデオの3次元時空間的特徴と音声のセマンティック・音響的特徴を共同でモデル化することにより、DigiFakeAV上での最先端(SOTA)のパフォーマンスを実現し、他のデータセットに対して強力な一般化を示す。
関連論文リスト
- Interspatial Attention for Efficient 4D Human Video Generation [98.36274427702915]
本稿では,現代的なビデオ生成モデルのための拡張性のあるビルディングブロックとして,新しい空間間アテンション(ISA)機構を導入する。
ISAは人間のビデオの生成に適した相対的な位置エンコーディングを利用する新しいタイプのクロスアテンションである。
本モデルは,4次元映像合成における最先端性能を実現し,動作の一貫性とアイデンティティの保存性を実証する。
論文 参考訳(メタデータ) (2025-05-21T17:53:47Z) - TT-DF: A Large-Scale Diffusion-Based Dataset and Benchmark for Human Body Forgery Detection [5.272652576086514]
そこで本研究では,1,378,857個の合成フレームを備えた6,120本の鍛造ビデオを含む,大規模な拡散型フォージェリーデータセットを提案する。
目的は、可能な限り網羅的に、潜在的に見えない偽造データをシミュレートすることであり、TT-DFのベンチマークも実施することである。
実験の結果,TOF-NetはTT-DFで良好な性能を示し,現在最先端の顔偽造検出モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-13T11:01:25Z) - SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation [0.0]
1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
論文 参考訳(メタデータ) (2025-05-08T17:59:58Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - Dynamic texture analysis for detecting fake faces in video sequences [6.1356022122903235]
本研究では,映像信号のテクスチャ・時間的ダイナミクスの解析について検討する。
目標は、実際の偽のシーケンスを識別し、識別することである。
時間セグメントの連成解析に基づいて複数の二分決定を構築することを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。