論文の概要: Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
- arxiv url: http://arxiv.org/abs/2503.20188v1
- Date: Wed, 26 Mar 2025 03:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:47.032729
- Title: Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
- Title(参考訳): 顔鑑定における視覚言語モデルの再考:多モード解釈可能な顔検出器
- Authors: Xiao Guo, Xiufeng Song, Yue Zhang, Xiaohong Liu, Xiaoming Liu,
- Abstract要約: ディープフェイク検出(Deepfake detection)は、悪意のある誤報の拡散を緩和するための、長年にわたって確立されてきた研究テーマである。
同時に両方を生成できる新しい方法を提案する。
提案手法は,事前学習したCLIPのマルチモーダル学習能力と,大規模言語モデルの前例のない解釈可能性を利用する。
- 参考スコア(独自算出の注目度): 21.19305310480085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake detection is a long-established research topic vital for mitigating the spread of malicious misinformation. Unlike prior methods that provide either binary classification results or textual explanations separately, we introduce a novel method capable of generating both simultaneously. Our method harnesses the multi-modal learning capability of the pre-trained CLIP and the unprecedented interpretability of large language models (LLMs) to enhance both the generalization and explainability of deepfake detection. Specifically, we introduce a multi-modal face forgery detector (M2F2-Det) that employs tailored face forgery prompt learning, incorporating the pre-trained CLIP to improve generalization to unseen forgeries. Also, M2F2-Det incorporates an LLM to provide detailed textual explanations of its detection decisions, enhancing interpretability by bridging the gap between natural language and subtle cues of facial forgeries. Empirically, we evaluate M2F2-Det on both detection and explanation generation tasks, where it achieves state-of-the-art performance, demonstrating its effectiveness in identifying and explaining diverse forgeries.
- Abstract(参考訳): ディープフェイク検出(Deepfake detection)は、悪意のある誤報の拡散を緩和するための、長年にわたって確立されてきた研究テーマである。
バイナリ分類結果とテキスト説明を別々に提供する従来の方法とは異なり,両手法を同時に生成できる新しい手法を導入する。
提案手法は,事前学習したCLIPのマルチモーダル学習能力と,大規模言語モデルの前例のない解釈可能性を利用して,ディープフェイク検出の一般化と説明可能性の向上を図る。
具体的には,M2F2-Det (M2F2-Det) を導入し,事前学習したCLIPを取り入れ,未知の偽造への一般化を図った。
また、M2F2-DetはLLMを組み込んで、その検出決定に関する詳細なテキスト説明を提供し、自然言語と微妙な顔の偽造とのギャップを埋めることによる解釈性を高める。
実験により,M2F2-Detは検出タスクと説明タスクの両方で評価され,最先端の性能を達成し,多種多様な偽造の特定と説明に有効であることを示す。
関連論文リスト
- Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context
Misinformation Detection [18.356648843815627]
アウト・オブ・コンテクスト(OOC)の誤報は、聴衆を誤解させる最も簡単かつ効果的な方法の1つである。
現在の手法は、画像テキストの一貫性を評価することに重点を置いているが、その判断には説得力のある説明が欠けている。
我々は、OOC誤情報検出と説明のために特別に設計された、新しいマルチモーダルな大規模言語モデルであるSNIFFERを紹介する。
論文 参考訳(メタデータ) (2024-03-05T18:04:59Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。