論文の概要: DF-LLaVA: Unlocking MLLM's potential for Synthetic Image Detection via Prompt-Guided Knowledge Injection
- arxiv url: http://arxiv.org/abs/2509.14957v1
- Date: Thu, 18 Sep 2025 13:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.244668
- Title: DF-LLaVA: Unlocking MLLM's potential for Synthetic Image Detection via Prompt-Guided Knowledge Injection
- Title(参考訳): DF-LLaVA:Prompt-Guided Knowledge InjectionによるMLLMの合成画像検出の可能性の解錠
- Authors: Zhuokang Shen, Kaisen Zhang, Bohan Jia, Yuan Fang, Zhou Yu, Shaohui Lin,
- Abstract要約: 我々は,MLLMの本質的な識別可能性を解き放つ,シンプルで効果的なフレームワークであるDF-LLaVAを提案する。
提案手法はまずMLLMから潜伏知識を抽出し,プロンプトによるトレーニングに注入する。
総合実験によりDF-LLaVAの優位性が確認され, 合成画像検出の精度と説明性の両方が得られた。
- 参考スコア(独自算出の注目度): 29.2145692950572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing prevalence of synthetic images, evaluating image authenticity and locating forgeries accurately while maintaining human interpretability remains a challenging task. Existing detection models primarily focus on simple authenticity classification, ultimately providing only a forgery probability or binary judgment, which offers limited explanatory insights into image authenticity. Moreover, while MLLM-based detection methods can provide more interpretable results, they still lag behind expert models in terms of pure authenticity classification accuracy. To address this, we propose DF-LLaVA, a simple yet effective framework that unlocks the intrinsic discrimination potential of MLLMs. Our approach first extracts latent knowledge from MLLMs and then injects it into training via prompts. This framework allows LLaVA to achieve outstanding detection accuracy exceeding expert models while still maintaining the interpretability offered by MLLMs. Extensive experiments confirm the superiority of our DF-LLaVA, achieving both high accuracy and explainability in synthetic image detection. Code is available online at: https://github.com/Eliot-Shen/DF-LLaVA.
- Abstract(参考訳): 合成画像の普及に伴い、人間の解釈可能性を維持しつつ、画像の真正性を評価し、偽造を正確に特定することは難しい課題である。
既存の検出モデルは、主に単純な真正性分類に焦点を当て、最終的には偽りの確率または二分判定のみを提供し、画像の真正性に関する限定的な説明的洞察を提供する。
さらに、MLLMに基づく検出手法は、より解釈可能な結果を提供することができるが、純粋な真正性分類精度の観点からは、専門家モデルより遅れている。
そこで本研究では,MLLMの本質的な識別可能性を解き放つ,シンプルで効果的なフレームワークであるDF-LLaVAを提案する。
提案手法はまずMLLMから潜伏知識を抽出し,プロンプトによるトレーニングに注入する。
このフレームワークにより、LLaVAは、MLLMが提供する解釈可能性を維持しながら、専門家モデルよりも優れた検出精度を達成できる。
総合実験によりDF-LLaVAの優位性が確認され, 合成画像検出の精度と説明性の両方が得られた。
コードは、https://github.com/Eliot-Shen/DF-LLaVA.comでオンラインで入手できる。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - TruthLens:A Training-Free Paradigm for DeepFake Detection [4.64982780843177]
本稿では,視覚的質問応答(VQA)タスクとしてディープフェイク検出を再定義するトレーニングフリーフレームワークであるTruthLensを紹介する。
TruthLensは最先端の大規模視覚言語モデル(LVLM)を使用して視覚的アーティファクトを観察し記述する。
マルチモーダルアプローチを採用することで、TruthLensは視覚的および意味論的推論をシームレスに統合し、イメージをリアルまたはフェイクとして分類するだけでなく、解釈可能な説明を提供する。
論文 参考訳(メタデータ) (2025-03-19T15:41:32Z) - Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation [15.442558725312976]
本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。
FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。
FakeClueは、7つのカテゴリにわたる10万以上の画像を含む包括的データセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされている。
論文 参考訳(メタデータ) (2025-03-19T05:14:44Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。