論文の概要: MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM
- arxiv url: http://arxiv.org/abs/2507.12232v1
- Date: Wed, 16 Jul 2025 13:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.408846
- Title: MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM
- Title(参考訳): MGFFD-VLM:VLMによる顔偽造検出のためのマルチグラニュラリティ・プロンプト学習
- Authors: Tao Chen, Jingyi Zhang, Decheng Liu, Chunlei Peng,
- Abstract要約: 本稿では,Attribute-Driven Hybrid LoRA戦略を統合した新しい偽造検出フレームワークMGFFD-VLMを紹介する。
本フレームワークは,マルチグラニュラリティ・プロンプト・ラーニングとフォージェリー・アウェア・トレーニング・ストラテジーを取り入れている。
- 参考スコア(独自算出の注目度): 15.695837601963488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have utilized visual large language models (VLMs) to answer not only "Is this face a forgery?" but also "Why is the face a forgery?" These studies introduced forgery-related attributes, such as forgery location and type, to construct deepfake VQA datasets and train VLMs, achieving high accuracy while providing human-understandable explanatory text descriptions. However, these methods still have limitations. For example, they do not fully leverage face quality-related attributes, which are often abnormal in forged faces, and they lack effective training strategies for forgery-aware VLMs. In this paper, we extend the VQA dataset to create DD-VQA+, which features a richer set of attributes and a more diverse range of samples. Furthermore, we introduce a novel forgery detection framework, MGFFD-VLM, which integrates an Attribute-Driven Hybrid LoRA Strategy to enhance the capabilities of Visual Large Language Models (VLMs). Additionally, our framework incorporates Multi-Granularity Prompt Learning and a Forgery-Aware Training Strategy. By transforming classification and forgery segmentation results into prompts, our method not only improves forgery classification but also enhances interpretability. To further boost detection performance, we design multiple forgery-related auxiliary losses. Experimental results demonstrate that our approach surpasses existing methods in both text-based forgery judgment and analysis, achieving superior accuracy.
- Abstract(参考訳): 近年の研究では、視覚的大言語モデル(VLM)を用いて、「この顔は偽物なのか?」だけでなく「なぜ偽物なのか?」にも答えている。
これらの研究は、偽造位置や型などの偽造関連属性を導入し、深いVQAデータセットを構築してVLMを訓練し、人間の理解可能な説明文記述を提供しながら高い精度を達成した。
しかし、これらの方法には制限がある。
例えば、顔の品質に関する属性は十分に活用されておらず、しばしば偽造された顔に異常があり、偽造を意識したVLMの効果的なトレーニング戦略が欠如している。
本稿では,VQAデータセットを拡張してDD-VQA+を作成する。
さらに,視覚大言語モデル(VLM)の能力を高めるために,属性駆動型ハイブリッドLoRA戦略を統合した新しい偽造検出フレームワークMGFFD-VLMを導入する。
さらに,本フレームワークには,マルチグラニュラリティ・プロンプト学習とフォージェリ・アウェア・トレーニング戦略が組み込まれている。
分類と偽分類結果をプロンプトに変換することにより, 偽分類を改良するだけでなく, 解釈可能性も向上する。
検出性能をさらに向上するため、複数の偽装関連補助損失を設計する。
実験の結果,本手法はテキストによる偽判定と解析の両方において既存の手法を超越し,精度が向上していることがわかった。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Contradiction Detection in RAG Systems: Evaluating LLMs as Context Validators for Improved Information Consistency [0.6827423171182154]
Retrieval Augmented Generation (RAG) システムは,大規模言語モデル(LLM)を最新情報で拡張するための強力な手法として登場した。
RAGは、特にニュースのような急速に進化する領域において、矛盾する情報を含む文書を提示することがある。
本研究では,RAGシステムの検索段階において発生する様々な矛盾をシミュレートする新しいデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T19:41:15Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference [78.08901120841833]
視覚大言語モデル(VLLM)の知識境界を検出する手法を提案する。
本稿では,VLLMの知識境界の表現に成功し,性能の維持や改善を図りながら不差別な検索を抑えることができることを示す。
論文 参考訳(メタデータ) (2025-02-25T09:32:08Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。