Fugu-MT 論文翻訳(概要): Can Multi-modal (reasoning) LLMs work as deepfake detectors?

論文の概要: Can Multi-modal (reasoning) LLMs work as deepfake detectors?

arxiv url: http://arxiv.org/abs/2503.20084v1
Date: Tue, 25 Mar 2025 21:47:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:46.988686
Title: Can Multi-modal (reasoning) LLMs work as deepfake detectors?
Title（参考訳）: マルチモーダル(推論)LDMはディープフェイク検出器として機能するか?
Authors: Simiao Ren, Yao Yao, Kidus Zewde, Zisheng Liang, Tsang, Ng, Ning-Yau Cheng, Xiaoou Zhan, Qinzhe Liu, Yifei Chen, Hengwei Xu,
Abstract要約: 我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
参考スコア（独自算出の注目度）: 6.36797761822772
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deepfake detection remains a critical challenge in the era of advanced generative models, particularly as synthetic media becomes more sophisticated. In this study, we explore the potential of state of the art multi-modal (reasoning) large language models (LLMs) for deepfake image detection such as (OpenAI O1/4o, Gemini thinking Flash 2, Deepseek Janus, Grok 3, llama 3.2, Qwen 2/2.5 VL, Mistral Pixtral, Claude 3.5/3.7 sonnet) . We benchmark 12 latest multi-modal LLMs against traditional deepfake detection methods across multiple datasets, including recently published real-world deepfake imagery. To enhance performance, we employ prompt tuning and conduct an in-depth analysis of the models' reasoning pathways to identify key contributing factors in their decision-making process. Our findings indicate that best multi-modal LLMs achieve competitive performance with promising generalization ability with zero shot, even surpass traditional deepfake detection pipelines in out-of-distribution datasets while the rest of the LLM families performs extremely disappointing with some worse than random guess. Furthermore, we found newer model version and reasoning capabilities does not contribute to performance in such niche tasks of deepfake detection while model size do help in some cases. This study highlights the potential of integrating multi-modal reasoning in future deepfake detection frameworks and provides insights into model interpretability for robustness in real-world scenarios.
Abstract（参考訳）: ディープフェイク検出は、特に合成メディアがより高度になるにつれて、先進的な生成モデルの時代において重要な課題である。本研究では, (OpenAI O1/4o, Gemini Think Flash 2, Deepseek Janus, Grok 3, llama 3.2, Qwen 2/2.5 VL, Mistral Pixtral, Claude 3.5/3.7 sonnet) など, ディープラーニング画像検出のための最先端マルチモーダル(推論)大言語モデル (LLM) の可能性を検討する。我々は、最近公開された現実世界のディープフェイク画像を含む、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。性能向上のために,我々は,素早いチューニングとモデル推論経路の詳細な解析を用いて,意思決定プロセスにおける重要な要因を同定する。以上の結果から,最上位のマルチモーダルLLMはゼロショットで有望な一般化能力で競合性能を達成し,従来のディープフェイク検出パイプラインを超越しても,他のLLMファミリーは無作為な推測よりもかなり残念な結果が得られた。さらに、より新しいモデルバージョンと推論能力はディープフェイク検出のようなニッチなタスクでは性能に寄与しないが、モデルサイズが役に立つ場合もあります。本研究では、将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調し、実世界のシナリオにおける堅牢性に対するモデル解釈可能性に関する洞察を提供する。

関連論文リスト

LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文参考訳（メタデータ） (2025-06-12T08:27:24Z)
DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models [43.86847047796023]
現在のディープフェイク検出方法は、生成モデルやコンテンツの多様性に制限のあるデータセットに依存することが多い。 textbfDFBenchは大規模なDeepFakeベンチマークで、リアル、AI編集、AI生成コンテンツにわたって54万のイメージが提供されている。我々は,複数のLMMから合成された確率戦略を利用して,ディープフェイク検出のための混合エージェントであるtextbfMoA-DFを提案する。
論文参考訳（メタデータ） (2025-06-03T15:45:41Z)
DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis [62.31018417955254]
DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
論文参考訳（メタデータ） (2025-04-15T11:28:02Z)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。 2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。 3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics [46.99625341531352]
AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。本稿では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
論文参考訳（メタデータ） (2024-03-21T01:57:30Z)
Linguistic Profiling of Deepfakes: An Open Database for Next-Generation Deepfake Detection [40.20982463380279]
本稿では,Deepfake データベース (DFLIP-3K) を提案する。約3K生成モデルから約300Kの多様なディープフェイクサンプルが含まれており、この文献で最も多くのディープフェイクモデルがある。この2つの特徴により、DFLIP-3Kはディープフェイクの言語プロファイリングの進歩を促進するベンチマークを開発することができる。
論文参考訳（メタデータ） (2024-01-04T16:19:52Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
Quality-Agnostic Deepfake Detection with Intra-model Collaborative Learning [26.517887637150594]
Deepfakeは最近、セキュリティ上の脅威と偽情報の拡散に関して、多くの社会的懸念を提起した。多くのSOTAアプローチは、特定のディープフェイクビデオ品質タイプを検出するために単一の特定モデルを使用することによって制限される。本研究では,異なる品質のディープフェイクを効果的かつ同時検出できる汎用的なモデル内協調学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-12T02:01:31Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。