論文の概要: Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
- arxiv url: http://arxiv.org/abs/2503.20188v1
- Date: Wed, 26 Mar 2025 03:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:39.911350
- Title: Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
- Title(参考訳): 顔鑑定における視覚言語モデルの再考:多モード解釈可能な顔検出器
- Authors: Xiao Guo, Xiufeng Song, Yue Zhang, Xiaohong Liu, Xiaoming Liu,
- Abstract要約: ディープフェイク検出(Deepfake detection)は、悪意のある誤報の拡散を緩和するための、長年にわたって確立されてきた研究テーマである。
同時に両方を生成できる新しい方法を提案する。
提案手法は,事前学習したCLIPのマルチモーダル学習能力と,大規模言語モデルの前例のない解釈可能性を利用する。
- 参考スコア(独自算出の注目度): 21.19305310480085
- License:
- Abstract: Deepfake detection is a long-established research topic vital for mitigating the spread of malicious misinformation. Unlike prior methods that provide either binary classification results or textual explanations separately, we introduce a novel method capable of generating both simultaneously. Our method harnesses the multi-modal learning capability of the pre-trained CLIP and the unprecedented interpretability of large language models (LLMs) to enhance both the generalization and explainability of deepfake detection. Specifically, we introduce a multi-modal face forgery detector (M2F2-Det) that employs tailored face forgery prompt learning, incorporating the pre-trained CLIP to improve generalization to unseen forgeries. Also, M2F2-Det incorporates an LLM to provide detailed textual explanations of its detection decisions, enhancing interpretability by bridging the gap between natural language and subtle cues of facial forgeries. Empirically, we evaluate M2F2-Det on both detection and explanation generation tasks, where it achieves state-of-the-art performance, demonstrating its effectiveness in identifying and explaining diverse forgeries.
- Abstract(参考訳): ディープフェイク検出(Deepfake detection)は、悪意のある誤報の拡散を緩和するための、長年にわたって確立されてきた研究テーマである。
バイナリ分類結果とテキスト説明を別々に提供する従来の方法とは異なり,両手法を同時に生成できる新しい手法を導入する。
提案手法は,事前学習したCLIPのマルチモーダル学習能力と,大規模言語モデルの前例のない解釈可能性を利用して,ディープフェイク検出の一般化と説明可能性の向上を図る。
具体的には,M2F2-Det (M2F2-Det) を導入し,事前学習したCLIPを取り入れ,未知の偽造への一般化を図った。
また、M2F2-DetはLLMを組み込んで、その検出決定に関する詳細なテキスト説明を提供し、自然言語と微妙な顔の偽造とのギャップを埋めることによる解釈性を高める。
実験により,M2F2-Detは検出タスクと説明タスクの両方で評価され,最先端の性能を達成し,多種多様な偽造の特定と説明に有効であることを示す。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Deep Prompt Multi-task Network for Abuse Language Detection [7.637768876962791]
既存の検出手法は、学習済み言語モデル(PLM)の微調整技術を用いて下流タスクを処理していると論じる。
本稿では,乱用言語検出のための新しいDeep Prompt Multi-task Network (DPMN)を提案する。
提案したDPMNは3つの公開データセット上の8つの典型的な手法に対して評価される。
論文 参考訳(メタデータ) (2024-03-08T12:45:53Z) - SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context
Misinformation Detection [18.356648843815627]
アウト・オブ・コンテクスト(OOC)の誤報は、聴衆を誤解させる最も簡単かつ効果的な方法の1つである。
現在の手法は、画像テキストの一貫性を評価することに重点を置いているが、その判断には説得力のある説明が欠けている。
我々は、OOC誤情報検出と説明のために特別に設計された、新しいマルチモーダルな大規模言語モデルであるSNIFFERを紹介する。
論文 参考訳(メタデータ) (2024-03-05T18:04:59Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。