論文の概要: Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics
- arxiv url: http://arxiv.org/abs/2504.11686v1
- Date: Wed, 16 Apr 2025 01:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 22:31:21.984308
- Title: Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics
- Title(参考訳): GPTはなぜこれらの画像が合成されるのかを教えてくれる?
- Authors: Yiran He, Yun Cao, Bowen Yang, Zeyu Zhang,
- Abstract要約: マルチモーダル大規模言語モデル(LLM)は、豊かな世界の知識を符号化しているが、局所的な偽造の詳細を理解するのに苦労している。
本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。
我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
- 参考スコア(独自算出の注目度): 18.989883830031093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of generative AI facilitates content creation and makes image manipulation easier and more difficult to detect. While multimodal Large Language Models (LLMs) have encoded rich world knowledge, they are not inherently tailored for combating AI-generated Content (AIGC) and struggle to comprehend local forgery details. In this work, we investigate the application of multimodal LLMs in forgery detection. We propose a framework capable of evaluating image authenticity, localizing tampered regions, providing evidence, and tracing generation methods based on semantic tampering clues. Our method demonstrates that the potential of LLMs in forgery analysis can be effectively unlocked through meticulous prompt engineering and the application of few-shot learning techniques. We conduct qualitative and quantitative experiments and show that GPT4V can achieve an accuracy of 92.1% in Autosplice and 86.3% in LaMa, which is competitive with state-of-the-art AIGC detection methods. We further discuss the limitations of multimodal LLMs in such tasks and propose potential improvements.
- Abstract(参考訳): 生成AIの急速な開発は、コンテンツ作成を促進し、画像操作を容易にし、より検出しにくくする。
マルチモーダルなLarge Language Models (LLM) は豊かな世界の知識を符号化しているが、AIGC(AIGC)と戦うために本質的には適していない。
本研究では,偽造検出におけるマルチモーダルLLMの適用について検討する。
本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。
本手法は, ファジィ解析におけるLLMの可能性を, 巧妙な急進的工学と数発の学習技術の適用により効果的に解錠できることを実証する。
我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
さらに、このようなタスクにおけるマルチモーダル LLM の限界について論じ、潜在的な改善を提案する。
関連論文リスト
- Towards Explainable Fake Image Detection with Multi-Modal Large Language Models [38.09674979670241]
偽画像検出は「ブラックボックス」として動作すべきでないと我々は主張する
本研究では,従来の検出手法や人体評価装置と比較して,MLLMの能力を評価する。
本稿では、これらのプロンプトを統合して、より堅牢で説明可能な、推論駆動型検出システムを開発するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-19T09:42:25Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference [78.08901120841833]
視覚大言語モデル(VLLM)の知識境界を検出する手法を提案する。
本稿では,VLLMの知識境界の表現に成功し,性能の維持や改善を図りながら不差別な検索を抑えることができることを示す。
論文 参考訳(メタデータ) (2025-02-25T09:32:08Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics [46.99625341531352]
AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。
本稿では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
論文 参考訳(メタデータ) (2024-03-21T01:57:30Z) - Research about the Ability of LLM in the Tamper-Detection Area [20.620232937684133]
大きな言語モデル(LLM)は、さまざまな課題に対処する上で、最も強力なAIツールとして登場した。
GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5種類のLSMを収集した。
ほとんどのLLMは論理と矛盾しない合成画像を識別でき、より強力なLLMは論理的だが人間の目への改ざんの兆候を識別できる。
論文 参考訳(メタデータ) (2024-01-24T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。