論文の概要: Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection
- arxiv url: http://arxiv.org/abs/2505.16512v1
- Date: Thu, 22 May 2025 10:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.234777
- Title: Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection
- Title(参考訳): 顔スワッピングを超えて:マルチモーダルディープフェイク検出のための拡散型デジタルヒューマンベンチマーク
- Authors: Jiaxin Liu, Jia Wang, Saihui Hou, Min Ren, Huijia Wu, Zhaofeng He,
- Abstract要約: ディープフェイク技術は、マルチモーダル制御信号を通じて一貫性のある非常にリアルなビデオを生成することができる。
拡散モデルに基づく最初の大規模マルチモーダルデジタルヒューマンデータセットであるDigiFakeAVを紹介する。
本稿では,時間的および時間的相互融合に基づくベースライン検出を提案する。
- 参考スコア(独自算出の注目度): 10.061299790334322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the rapid development of deepfake technology has given rise to an emerging and serious threat to public security: diffusion model-based digital human generation. Unlike traditional face manipulation methods, such models can generate highly realistic videos with consistency through multimodal control signals. Their flexibility and covertness pose severe challenges to existing detection strategies. To bridge this gap, we introduce DigiFakeAV, the first large-scale multimodal digital human forgery dataset based on diffusion models. Employing five latest digital human generation methods (Sonic, Hallo, etc.) and voice cloning method, we systematically produce a dataset comprising 60,000 videos (8.4 million frames), covering multiple nationalities, skin tones, genders, and real-world scenarios, significantly enhancing data diversity and realism. User studies show that the confusion rate between forged and real videos reaches 68%, and existing state-of-the-art (SOTA) detection models exhibit large drops in AUC values on DigiFakeAV, highlighting the challenge of the dataset. To address this problem, we further propose DigiShield, a detection baseline based on spatiotemporal and cross-modal fusion. By jointly modeling the 3D spatiotemporal features of videos and the semantic-acoustic features of audio, DigiShield achieves SOTA performance on both the DigiFakeAV and DF-TIMIT datasets. Experiments show that this method effectively identifies covert artifacts through fine-grained analysis of the temporal evolution of facial features in synthetic videos.
- Abstract(参考訳): 近年、ディープフェイク技術の急速な発展により、公共の安全に対する新たな深刻な脅威、すなわち拡散モデルに基づくデジタルヒューマンジェネレーションが生まれている。
従来の顔操作法とは異なり、このようなモデルはマルチモーダル制御信号を通じて一貫性のある非常にリアルなビデオを生成することができる。
その柔軟性と隠蔽性は、既存の検出戦略に深刻な課題をもたらす。
このギャップを埋めるために、拡散モデルに基づく最初の大規模マルチモーダルデジタルヒューマンフォージェリデータセットであるDigiFakeAVを紹介する。
5つの最新のデジタルヒューマンジェネレーション手法(ソニック、ハロなど)と音声のクローニング手法を用いて、6万のビデオ(840万フレーム)からなるデータセットを体系的に作成し、複数の国籍、肌の色、性別、現実のシナリオをカバーし、データの多様性とリアリズムを著しく向上させる。
ユーザスタディによると、偽ビデオと実ビデオの混同率は68%に達し、既存のSOTA(State-of-the-art)検出モデルはDigiFakeAVのAUC値に大きな低下を示し、データセットの課題を強調している。
この問題に対処するため,時空間核融合とクロスモーダル融合に基づく検出ベースラインであるDigiShieldを提案する。
DigiShieldはビデオの3次元時空間的特徴と音声のセマンティック・音響的特徴を共同でモデル化することにより、DigiFakeAVとDF-TIMITの両方のデータセット上でSOTAのパフォーマンスを達成する。
実験により, 合成ビデオにおける顔の特徴の時間的変化の微粒化解析により, 隠蔽物を効果的に同定できることが確認された。
関連論文リスト
- Interspatial Attention for Efficient 4D Human Video Generation [98.36274427702915]
本稿では,現代的なビデオ生成モデルのための拡張性のあるビルディングブロックとして,新しい空間間アテンション(ISA)機構を導入する。
ISAは人間のビデオの生成に適した相対的な位置エンコーディングを利用する新しいタイプのクロスアテンションである。
本モデルは,4次元映像合成における最先端性能を実現し,動作の一貫性とアイデンティティの保存性を実証する。
論文 参考訳(メタデータ) (2025-05-21T17:53:47Z) - TT-DF: A Large-Scale Diffusion-Based Dataset and Benchmark for Human Body Forgery Detection [5.272652576086514]
そこで本研究では,1,378,857個の合成フレームを備えた6,120本の鍛造ビデオを含む,大規模な拡散型フォージェリーデータセットを提案する。
目的は、可能な限り網羅的に、潜在的に見えない偽造データをシミュレートすることであり、TT-DFのベンチマークも実施することである。
実験の結果,TOF-NetはTT-DFで良好な性能を示し,現在最先端の顔偽造検出モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-13T11:01:25Z) - SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation [0.0]
1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
論文 参考訳(メタデータ) (2025-05-08T17:59:58Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - Dynamic texture analysis for detecting fake faces in video sequences [6.1356022122903235]
本研究では,映像信号のテクスチャ・時間的ダイナミクスの解析について検討する。
目標は、実際の偽のシーケンスを識別し、識別することである。
時間セグメントの連成解析に基づいて複数の二分決定を構築することを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。