論文の概要: Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics
- arxiv url: http://arxiv.org/abs/2504.11686v1
- Date: Wed, 16 Apr 2025 01:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:11.435780
- Title: Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics
- Title(参考訳): GPTはなぜこれらの画像が合成されるのかを教えてくれる?
- Authors: Yiran He, Yun Cao, Bowen Yang, Zeyu Zhang,
- Abstract要約: マルチモーダル大規模言語モデル(LLM)は、豊かな世界の知識を符号化しているが、局所的な偽造の詳細を理解するのに苦労している。
本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。
我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
- 参考スコア(独自算出の注目度): 18.989883830031093
- License:
- Abstract: The rapid development of generative AI facilitates content creation and makes image manipulation easier and more difficult to detect. While multimodal Large Language Models (LLMs) have encoded rich world knowledge, they are not inherently tailored for combating AI-generated Content (AIGC) and struggle to comprehend local forgery details. In this work, we investigate the application of multimodal LLMs in forgery detection. We propose a framework capable of evaluating image authenticity, localizing tampered regions, providing evidence, and tracing generation methods based on semantic tampering clues. Our method demonstrates that the potential of LLMs in forgery analysis can be effectively unlocked through meticulous prompt engineering and the application of few-shot learning techniques. We conduct qualitative and quantitative experiments and show that GPT4V can achieve an accuracy of 92.1% in Autosplice and 86.3% in LaMa, which is competitive with state-of-the-art AIGC detection methods. We further discuss the limitations of multimodal LLMs in such tasks and propose potential improvements.
- Abstract(参考訳): 生成AIの急速な開発は、コンテンツ作成を促進し、画像操作を容易にし、より検出しにくくする。
マルチモーダルなLarge Language Models (LLM) は豊かな世界の知識を符号化しているが、AIGC(AIGC)と戦うために本質的には適していない。
本研究では,偽造検出におけるマルチモーダルLLMの適用について検討する。
本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。
本手法は, ファジィ解析におけるLLMの可能性を, 巧妙な急進的工学と数発の学習技術の適用により効果的に解錠できることを実証する。
我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
さらに、このようなタスクにおけるマルチモーダル LLM の限界について論じ、潜在的な改善を提案する。
関連論文リスト
- Trust at Your Own Peril: A Mixed Methods Exploration of the Ability of Large Language Models to Generate Expert-Like Systems Engineering Artifacts and a Characterization of Failure Modes [0.0]
そこでは,人間の専門家が作成したSEアーティファクトをベンチマークとして用いた経験的探索の結果を報告する。
次に、AI生成されたアーティファクトとベンチマークを比較するために、2倍の混合メソッドアプローチを採用しました。
2つの素材は非常に似ているように見えるが、AIが生成したアーティファクトは深刻な障害モードを示しており、検出は困難である。
論文 参考訳(メタデータ) (2025-02-13T17:05:18Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics [46.99625341531352]
AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。
本稿では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
論文 参考訳(メタデータ) (2024-03-21T01:57:30Z) - Research about the Ability of LLM in the Tamper-Detection Area [20.620232937684133]
大きな言語モデル(LLM)は、さまざまな課題に対処する上で、最も強力なAIツールとして登場した。
GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5種類のLSMを収集した。
ほとんどのLLMは論理と矛盾しない合成画像を識別でき、より強力なLLMは論理的だが人間の目への改ざんの兆候を識別できる。
論文 参考訳(メタデータ) (2024-01-24T14:53:06Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。