論文の概要: VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06142v1
- Date: Sat, 08 Mar 2025 09:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:20.731133
- Title: VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models
- Title(参考訳): VLForgery Face Triad:マルチモーダル大言語モデルによる検出・局所化・帰属
- Authors: Xinan He, Yue Zhou, Bing Fan, Bin Li, Guopu Zhu, Feng Ding,
- Abstract要約: 高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
- 参考スコア(独自算出の注目度): 14.053424085561296
- License:
- Abstract: Faces synthesized by diffusion models (DMs) with high-quality and controllable attributes pose a significant challenge for Deepfake detection. Most state-of-the-art detectors only yield a binary decision, incapable of forgery localization, attribution of forgery methods, and providing analysis on the cause of forgeries. In this work, we integrate Multimodal Large Language Models (MLLMs) within DM-based face forensics, and propose a fine-grained analysis triad framework called VLForgery, that can 1) predict falsified facial images; 2) locate the falsified face regions subjected to partial synthesis; and 3) attribute the synthesis with specific generators. To achieve the above goals, we introduce VLF (Visual Language Forensics), a novel and diverse synthesis face dataset designed to facilitate rich interactions between Visual and Language modalities in MLLMs. Additionally, we propose an extrinsic knowledge-guided description method, termed EkCot, which leverages knowledge from the image generation pipeline to enable MLLMs to quickly capture image content. Furthermore, we introduce a low-level vision comparison pipeline designed to identify differential features between real and fake that MLLMs can inherently understand. These features are then incorporated into EkCot, enhancing its ability to analyze forgeries in a structured manner, following the sequence of detection, localization, and attribution. Extensive experiments demonstrate that VLForgery outperforms other state-of-the-art forensic approaches in detection accuracy, with additional potential for falsified region localization and attribution analysis.
- Abstract(参考訳): 高品質で制御可能な特性を持つ拡散モデル(DM)によって合成された顔は、ディープフェイク検出において重要な課題となる。
ほとんどの最先端検出器は二分決定しか得られず、フォージェリーのローカライゼーションが不可能であり、フォージェリーメソッドの帰属であり、フォージェリーの原因に関する分析を提供する。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定学に統合し,VLForgery と呼ばれる細粒度解析トリアドフレームワークを提案する。
1)falsified顔画像の予測
2) 部分合成を受けた偽顔領域の特定,及び
3) 特定の発電機で合成する。
この目的を達成するために,MLLMにおける視覚と言語間のリッチな相互作用を促進するために設計された,斬新で多様な合成顔データセットであるVLF(Visual Language Forensics)を導入する。
さらに、画像生成パイプラインからの知識を活用し、MLLMが迅速に画像コンテンツをキャプチャできるようにする、EkCotと呼ばれる外部知識誘導記述手法を提案する。
さらに,MLLMが本質的に理解できる実物と偽物の差分特徴を特定するために,低レベルの視覚比較パイプラインを導入する。
これらの機能はEkCotに組み込まれ、検出、ローカライゼーション、帰属のシーケンスに従って、フォージェリーを構造化された方法で分析する能力を高める。
広範囲にわたる実験により、VLForgeryは検出精度において他の最先端の法医学的アプローチよりも優れており、さらにファルシフィケードされた領域の局在化と帰属分析の可能性が示された。
関連論文リスト
- Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。