Fugu-MT 論文翻訳(概要): FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

論文の概要: FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

arxiv url: http://arxiv.org/abs/2410.02761v3
Date: Tue, 5 Nov 2024 13:14:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 15:11:34.572913
Title: FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
Title（参考訳）: FakeShield:マルチモーダル大言語モデルによる説明可能な画像偽造検出と位置決め
Authors: Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang,
Abstract要約: 本稿では,FakeShieldの設計とIFDLタスクを提案する。 FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断ベースを提供するマルチモーダルフレームワークである。実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
参考スコア（独自算出の注目度）: 16.737419222106308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield's tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.
Abstract（参考訳）: 生成AIの急速な開発は、コンテンツ作成を容易にするだけでなく、画像の操作を容易にし、検出しにくくする、二重刃の剣である。現在の画像偽造検出・ローカライゼーション(IFDL)法は一般的に有効であるが、未知の検出原理を持つブラックボックスの性質である \textbf{1)} や、さまざまなタンパリング手法(Photoshop、DeepFake、AIGC-Editingなど)を対象とする一般化を制限した \textbf{2} という2つの課題に直面している。これらの課題に対処するため,FakeShieldは画像の信頼性を評価し,領域マスクを改ざんし,画素レベルおよび画像レベルの改ざんヒントに基づく判定基準を提供するマルチモーダルフレームワークである。さらに、GPT-4oを利用して既存のIFDLデータセットを強化し、FakeShieldのタンパリング分析能力をトレーニングするためのMulti-Modal Tamper Description DataSet(MMTD-Set)を作成します。一方,Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) と Multi-modal Forgery Localization Module (MFLM) を組み込んで,様々なタイプのタンパー検出解釈に対処し,詳細なテキスト記述によるフォージェリローカライゼーションを実現する。大規模な実験により、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供することを示した。

関連論文リスト

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model [11.08248067961235]
FOCAは、RGB空間領域と周波数領域の両方の識別機能を統合した、大規模な言語モデルベースのフレームワークである。 FSE-Setは、さまざまな認証と改ざんされたイメージ、ピクセルレベルのマスク、デュアルドメインアノテーションを備えた大規模なデータセットである。
論文参考訳（メタデータ） (2026-02-21T15:53:44Z)
ManipShield: A Unified Framework for Image Manipulation Detection, Localization and Explanation [81.52606410224136]
画像操作検出と局所化のための大規模ベンチマークである textbfManipBench を提案する。また,マルチモーダル大言語モデル(MLLM)に基づくオールインワンモデルであるtextbfManipShieldを提案する。
論文参考訳（メタデータ） (2025-11-18T08:50:17Z)
Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline [5.740204096484276]
画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。 Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
論文参考訳（メタデータ） (2025-11-17T14:49:57Z)
Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2025-10-30T13:09:00Z)
Towards Explainable Fake Image Detection with Multi-Modal Large Language Models [38.09674979670241]
偽画像検出は「ブラックボックス」として動作すべきでないと我々は主張する本研究では,従来の検出手法や人体評価装置と比較して,MLLMの能力を評価する。本稿では、これらのプロンプトを統合して、より堅牢で説明可能な、推論駆動型検出システムを開発するフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-19T09:42:25Z)
Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T07:35:09Z)
Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文参考訳（メタデータ） (2025-02-28T04:15:36Z)
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文参考訳（メタデータ） (2024-10-14T07:56:51Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文参考訳（メタデータ） (2024-04-19T14:30:41Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文参考訳（メタデータ） (2022-11-06T14:58:21Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2022-03-28T12:27:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。