論文の概要: Fake-in-Facext: Towards Fine-Grained Explainable DeepFake Analysis
- arxiv url: http://arxiv.org/abs/2510.20531v1
- Date: Thu, 23 Oct 2025 13:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.934462
- Title: Fake-in-Facext: Towards Fine-Grained Explainable DeepFake Analysis
- Title(参考訳): Fake-in-Facext: きめ細かい説明可能なディープフェイク分析を目指して
- Authors: Lixiong Qin, Yang Zhang, Mei Wang, Jiani Hu, Weihong Deng, Weiran Xu,
- Abstract要約: 本稿ではFake-in-Facext(FiFa)フレームワークを提案する。
まず、顔画像をきめ細かな地域概念に分割するためのFICT(Facial Image Concept Tree)を定義した。
この専用のデータアノテーションに基づいて,新しいArtifact-Grounding Explanation (AGE)タスクを導入する。
本研究では,マルチタスク学習アーキテクチャであるFiFa-MLLMを提案し,詳細なDeepFake解析のための豊富なマルチモーダル入力と出力を同時にサポートする。
- 参考スコア(独自算出の注目度): 53.733003768566455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Multimodal Large Language Models (MLLMs) has bridged the gap between vision and language tasks, enabling the implementation of Explainable DeepFake Analysis (XDFA). However, current methods suffer from a lack of fine-grained awareness: the description of artifacts in data annotation is unreliable and coarse-grained, and the models fail to support the output of connections between textual forgery explanations and the visual evidence of artifacts, as well as the input of queries for arbitrary facial regions. As a result, their responses are not sufficiently grounded in Face Visual Context (Facext). To address this limitation, we propose the Fake-in-Facext (FiFa) framework, with contributions focusing on data annotation and model construction. We first define a Facial Image Concept Tree (FICT) to divide facial images into fine-grained regional concepts, thereby obtaining a more reliable data annotation pipeline, FiFa-Annotator, for forgery explanation. Based on this dedicated data annotation, we introduce a novel Artifact-Grounding Explanation (AGE) task, which generates textual forgery explanations interleaved with segmentation masks of manipulated artifacts. We propose a unified multi-task learning architecture, FiFa-MLLM, to simultaneously support abundant multimodal inputs and outputs for fine-grained Explainable DeepFake Analysis. With multiple auxiliary supervision tasks, FiFa-MLLM can outperform strong baselines on the AGE task and achieve SOTA performance on existing XDFA datasets. The code and data will be made open-source at https://github.com/lxq1000/Fake-in-Facext.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、視覚と言語タスクのギャップを埋め、説明可能なDeepFake Analysis(XDFA)の実装を可能にした。
しかし、現在の手法は、微妙な認識の欠如に悩まされている: データアノテーションにおけるアーティファクトの記述は信頼性が低く、粗大であり、モデルは、テキストフォージェリーの説明とアーティファクトの視覚的証拠の間の接続の出力をサポートしておらず、また任意の顔領域に対するクエリの入力もサポートできない。
その結果、それらの応答はFace Visual Context (Facext) では十分に基礎付けられていない。
この制限に対処するために、データアノテーションとモデル構築に焦点を当てたFake-in-Facext(FiFa)フレームワークを提案する。
まず、顔画像をきめ細かな地域概念に分割するためにFICT(Facial Image Concept Tree)を定義し、偽説明のためにより信頼性の高いデータアノテーションパイプラインFiFa-Annotatorを得る。
この専用のデータアノテーションに基づいて、操作されたアーティファクトのセグメンテーションマスクをインターリーブしたテキスト偽説明を生成する新しいArtifact-Grounding Explanation (AGE)タスクを導入する。
本研究では,マルチタスク学習アーキテクチャであるFiFa-MLLMを提案し,詳細なDeepFake解析のための豊富なマルチモーダル入力と出力を同時にサポートする。
複数の補助的監視タスクにより、FiFa-MLLMはAGEタスクの強いベースラインを上回り、既存のXDFAデータセットでのSOTAパフォーマンスを達成することができる。
コードとデータはhttps://github.com/lxq1000/Fake-in-Facext.comでオープンソース化される。
関連論文リスト
- EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning [58.42596067220998]
ディープフェイクビデオ技術は 芸術的な創造を 促進しただけでなく 偽情報を広めやすくした
従来のディープフェイクビデオ検出手法は、その原則の透明性の欠如や、偽造技術に対処する能力の不足といった問題に直面している。
本稿では,Deepfake Video Detection (EDVD) タスクを提案し,EDVD-LLaMAマルチモーダル推論フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-18T10:34:05Z) - Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。
拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。
次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文 参考訳(メタデータ) (2025-07-09T17:59:47Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。