Fugu-MT 論文翻訳(概要): ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization

論文の概要: ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization

arxiv url: http://arxiv.org/abs/2410.10238v1
Date: Mon, 14 Oct 2024 07:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:14:55.172218
Title: ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization
Title（参考訳）: ForgeryGPT: 説明可能な画像偽造検出と位置推定のための多モード大言語モデル
Authors: Jiawei Li, Fanrui Zhang, Jiaying Zhu, Esther Sun, Qiang Zhang, Zheng-Jun Zha,
Abstract要約: ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
参考スコア（独自算出の注目度）: 49.992614129625274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs), such as GPT4o, have shown strong capabilities in visual reasoning and explanation generation. However, despite these strengths, they face significant challenges in the increasingly critical task of Image Forgery Detection and Localization (IFDL). Moreover, existing IFDL methods are typically limited to the learning of low-level semantic-agnostic clues and merely provide a single outcome judgment. To tackle these issues, we propose ForgeryGPT, a novel framework that advances the IFDL task by capturing high-order forensics knowledge correlations of forged images from diverse linguistic feature spaces, while enabling explainable generation and interactive dialogue through a newly customized Large Language Model (LLM) architecture. Specifically, ForgeryGPT enhances traditional LLMs by integrating the Mask-Aware Forgery Extractor, which enables the excavating of precise forgery mask information from input images and facilitating pixel-level understanding of tampering artifacts. The Mask-Aware Forgery Extractor consists of a Forgery Localization Expert (FL-Expert) and a Mask Encoder, where the FL-Expert is augmented with an Object-agnostic Forgery Prompt and a Vocabulary-enhanced Vision Encoder, allowing for effectively capturing of multi-scale fine-grained forgery details. To enhance its performance, we implement a three-stage training strategy, supported by our designed Mask-Text Alignment and IFDL Task-Specific Instruction Tuning datasets, which align vision-language modalities and improve forgery detection and instruction-following capabilities. Extensive experiments demonstrate the effectiveness of the proposed method.
Abstract（参考訳）: GPT4oのようなマルチモーダル大言語モデル(MLLM)は、視覚的推論や説明生成において強力な能力を示している。しかし、これらの強みにもかかわらず、画像偽造検出および局所化(IFDL)の重要課題がますます深刻化している。さらに、既存のIFDL法は、通常、低レベルの意味不明な手がかりの学習に限られており、ただ一つの結果判定を提供するだけである。これらの課題に対処するために,ForgeryGPTを提案する。このフレームワークは,多種多様な言語特徴空間から偽画像の高次法医学的知識相関を抽出し,新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャによる説明可能な生成と対話を可能にする。具体的には、ForgeryGPTはMask-Aware Forgery Extractorを統合し、入力画像から正確なフォージェリーマスク情報を抽出し、改ざん品のピクセルレベルの理解を容易にすることで、従来のLCMを強化している。 Mask-Aware Forgery Extractor は Forgery Localization Expert (FL-Expert) と Mask Encoder で構成されており、FL-Expert は Object-Agnostic Forgery Prompt と Vocabulary-enhanced Vision Encoder で拡張されており、マルチスケールの微細なフォージェリー詳細を効果的にキャプチャすることができる。その性能を向上させるため,設計したMask-Text AlignmentとIFDL Task-Specific Instruction Tuningデータセットによって支援された3段階のトレーニング戦略を実装した。大規模実験により提案手法の有効性が示された。

関連論文リスト

Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文参考訳（メタデータ） (2025-06-26T05:28:57Z)
Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。 ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文参考訳（メタデータ） (2024-11-29T04:35:18Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models [16.737419222106308]
本稿では,FakeShieldの設計とIFDLタスクを提案する。 FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断ベースを提供するマルチモーダルフレームワークである。実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
論文参考訳（メタデータ） (2024-10-03T17:59:34Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文参考訳（メタデータ） (2022-05-09T07:03:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。