論文の概要: DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.03007v1
- Date: Tue, 03 Jun 2025 15:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.819582
- Title: DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models
- Title(参考訳): DFBench:大規模マルチモーダルモデルのディープフェイク画像検出能力のベンチマーク
- Authors: Jiarui Wang, Huiyu Duan, Juntong Wang, Ziheng Jia, Woo Yi Yang, Xiaorong Zhu, Yu Zhao, Jiaying Qian, Yuke Xing, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 現在のディープフェイク検出方法は、生成モデルやコンテンツの多様性に制限のあるデータセットに依存することが多い。
textbfDFBenchは大規模なDeepFakeベンチマークで、リアル、AI編集、AI生成コンテンツにわたって54万のイメージが提供されている。
我々は,複数のLMMから合成された確率戦略を利用して,ディープフェイク検出のための混合エージェントであるtextbfMoA-DFを提案する。
- 参考スコア(独自算出の注目度): 43.86847047796023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of generative models, the realism of AI-generated images has significantly improved, posing critical challenges for verifying digital content authenticity. Current deepfake detection methods often depend on datasets with limited generation models and content diversity that fail to keep pace with the evolving complexity and increasing realism of the AI-generated content. Large multimodal models (LMMs), widely adopted in various vision tasks, have demonstrated strong zero-shot capabilities, yet their potential in deepfake detection remains largely unexplored. To bridge this gap, we present \textbf{DFBench}, a large-scale DeepFake Benchmark featuring (i) broad diversity, including 540,000 images across real, AI-edited, and AI-generated content, (ii) latest model, the fake images are generated by 12 state-of-the-art generation models, and (iii) bidirectional benchmarking and evaluating for both the detection accuracy of deepfake detectors and the evasion capability of generative models. Based on DFBench, we propose \textbf{MoA-DF}, Mixture of Agents for DeepFake detection, leveraging a combined probability strategy from multiple LMMs. MoA-DF achieves state-of-the-art performance, further proving the effectiveness of leveraging LMMs for deepfake detection. Database and codes are publicly available at https://github.com/IntMeGroup/DFBench.
- Abstract(参考訳): 生成モデルの急速な進歩により、AI生成画像のリアリズムは大幅に改善され、デジタルコンテンツの信頼性を検証する上で重要な課題となっている。
現在のディープフェイク検出方法は、進化する複雑さとAI生成コンテンツの現実性の増加に追随しない、限られた生成モデルとコンテンツの多様性を持つデータセットに依存することが多い。
様々な視覚タスクに広く採用されている大型マルチモーダルモデル (LMM) は、強力なゼロショット能力を示しているが、ディープフェイク検出におけるその可能性はほとんど解明されていない。
このギャップを埋めるため、大規模なDeepFake Benchmark機能を備えた \textbf{DFBench} を提示する。
i) リアル、AI編集、AI生成コンテンツにわたる54万の画像を含む幅広い多様性。
(ii)最新のモデルでは、12の最先端世代モデルにより偽画像が生成される。
三 ディープフェイク検出器の検出精度と生成モデルの回避能力を両立させ評価すること。
DFBenchに基づいて,複数のLMMから合成された確率戦略を利用して,ディープフェイク検出のための混合エージェントである「textbf{MoA-DF}」を提案する。
MoA-DFは最先端性能を実現し,LMMを用いた深度検出の有効性を実証した。
データベースとコードはhttps://github.com/IntMeGroup/DFBench.comで公開されている。
関連論文リスト
- Can Multi-modal (reasoning) LLMs work as deepfake detectors? [6.36797761822772]
我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。
以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。
本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
論文 参考訳(メタデータ) (2025-03-25T21:47:29Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model [48.547599530927926]
ソーシャルメディア上で共有される合成画像は、広範囲の聴衆を誤解させ、デジタルコンテンツに対する信頼を損なう可能性がある。
ソーシャルメディア画像検出データセット(SID-Set)を紹介する。
本稿では,SIDA という画像深度検出,局所化,説明の枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:12:25Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。