論文の概要: FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.02761v2
- Date: Sun, 13 Oct 2024 14:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 06:04:22.259815
- Title: FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
- Title(参考訳): FakeShield:マルチモーダル大言語モデルによる説明可能な画像偽造検出と位置決め
- Authors: Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang,
- Abstract要約: 本稿では,FakeShieldの設計とIFDLタスクを提案する。
FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断ベースを提供するマルチモーダルフレームワークである。
実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
- 参考スコア(独自算出の注目度): 16.737419222106308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield's tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.
- Abstract(参考訳): 生成AIの急速な開発は、コンテンツ作成を容易にするだけでなく、画像の操作を容易にし、検出しにくくする、二重刃の剣である。
現在の画像偽造検出・ローカライゼーション(IFDL)法は一般的に有効であるが、未知の検出原理を持つブラックボックスの性質である \textbf{1)} や、さまざまなタンパリング手法(Photoshop、DeepFake、AIGC-Editingなど)を対象とする一般化を制限した \textbf{2} という2つの課題に直面している。
これらの課題に対処するため,FakeShieldは画像の信頼性を評価し,領域マスクを改ざんし,画素レベルおよび画像レベルの改ざんヒントに基づく判定基準を提供するマルチモーダルフレームワークである。
さらに、GPT-4oを利用して既存のIFDLデータセットを強化し、FakeShieldのタンパリング分析能力をトレーニングするためのMulti-Modal Tamper Description DataSet(MMTD-Set)を作成します。
一方,Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) と Multi-modal Forgery Localization Module (MFLM) を組み込んで,様々なタイプのタンパー検出解釈に対処し,詳細なテキスト記述によるフォージェリローカライゼーションを実現する。
大規模な実験により、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供することを示した。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文 参考訳(メタデータ) (2022-11-06T14:58:21Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。