論文の概要: MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution
- arxiv url: http://arxiv.org/abs/2505.02013v1
- Date: Sun, 04 May 2025 06:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.380255
- Title: MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution
- Title(参考訳): MLLMによる顔偽造検出:ビジョンランゲージ・フュージョン・ソリューション
- Authors: Siran Peng, Zipei Wang, Li Gao, Xiangyu Zhu, Tianshuo Zhang, Ajian Liu, Haoyuan Zhang, Zhen Lei,
- Abstract要約: VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
- 参考スコア(独自算出の注目度): 36.79921476565535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable face forgery detection algorithms are crucial for countering the growing threat of deepfake-driven disinformation. Previous research has demonstrated the potential of Multimodal Large Language Models (MLLMs) in identifying manipulated faces. However, existing methods typically depend on either the Large Language Model (LLM) alone or an external detector to generate classification results, which often leads to sub-optimal integration of visual and textual modalities. In this paper, we propose VLF-FFD, a novel Vision-Language Fusion solution for MLLM-enhanced Face Forgery Detection. Our key contributions are twofold. First, we present EFF++, a frame-level, explainability-driven extension of the widely used FaceForensics++ (FF++) dataset. In EFF++, each manipulated video frame is paired with a textual annotation that describes both the forgery artifacts and the specific manipulation technique applied, enabling more effective and informative MLLM training. Second, we design a Vision-Language Fusion Network (VLF-Net) that promotes bidirectional interaction between visual and textual features, supported by a three-stage training pipeline to fully leverage its potential. VLF-FFD achieves state-of-the-art (SOTA) performance in both cross-dataset and intra-dataset evaluations, underscoring its exceptional effectiveness in face forgery detection.
- Abstract(参考訳): ディープフェイク駆動の偽情報に対する脅威に対処するためには、信頼性の高い顔偽造検出アルゴリズムが不可欠である。
これまでの研究は、操作された顔を特定する上で、MLLM(Multimodal Large Language Models)の可能性を実証してきた。
しかし、既存の手法は通常、Large Language Model (LLM) のみに依存するか、分類結果を生成する外部検出器に依存するため、視覚的およびテキスト的モダリティの準最適統合につながることが多い。
本稿では,MLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションであるVLF-FFDを提案する。
私たちの重要な貢献は2つです。
まず、広く使われているFaceForensics++(FF++)データセットのフレームレベルの説明可能性駆動拡張であるEFF++を紹介する。
EFF++では、操作された各ビデオフレームに、偽造品と特定の操作技法の両方を記述するテキストアノテーションが組み合わされ、より効果的で情報的なMLLMトレーニングを可能にする。
第2に、視覚的特徴とテキスト的特徴の双方向相互作用を促進するビジョン・ランゲージ・フュージョン・ネットワーク(VLF-Net)を設計し、その潜在能力をフル活用するための3段階のトレーニングパイプラインでサポートした。
VLF-FFDは、クロスデータセットとイントラデータセットの評価の両方において、最先端(SOTA)性能を達成し、顔偽造検出における異常な効果を裏付ける。
関連論文リスト
- Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。
本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。
VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。
提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文 参考訳(メタデータ) (2024-11-27T04:13:23Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。