論文の概要: Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2506.07045v1
- Date: Sun, 08 Jun 2025 08:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.648296
- Title: Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs
- Title(参考訳): MLLMにおけるグラウンドド推論によるAI生成画像の解釈と信頼性検出
- Authors: Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang,
- Abstract要約: 私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
- 参考スコア(独自算出の注目度): 43.08776932101172
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of image generation technologies intensifies the demand for interpretable and robust detection methods. Although existing approaches often attain high accuracy, they typically operate as black boxes without providing human-understandable justifications. Multi-modal Large Language Models (MLLMs), while not originally intended for forgery detection, exhibit strong analytical and reasoning capabilities. When properly fine-tuned, they can effectively identify AI-generated images and offer meaningful explanations. However, existing MLLMs still struggle with hallucination and often fail to align their visual interpretations with actual image content and human reasoning. To bridge this gap, we construct a dataset of AI-generated images annotated with bounding boxes and descriptive captions that highlight synthesis artifacts, establishing a foundation for human-aligned visual-textual grounded reasoning. We then finetune MLLMs through a multi-stage optimization strategy that progressively balances the objectives of accurate detection, visual localization, and coherent textual explanation. The resulting model achieves superior performance in both detecting AI-generated images and localizing visual flaws, significantly outperforming baseline methods.
- Abstract(参考訳): 画像生成技術の急速な進歩は、解釈可能かつ堅牢な検出方法の需要を増大させる。
既存のアプローチは、しばしば高い精度を達成するが、通常、人間に理解可能な正当化を与えることなく、ブラックボックスとして機能する。
マルチモーダル大規模言語モデル(MLLM)は、元々は偽造検出を意図したものではなかったが、強力な分析と推論能力を持っている。
適切に微調整された場合、AI生成した画像を効果的に識別し、意味のある説明を提供する。
しかし、既存のMLLMは幻覚に苦しんでおり、視覚的な解釈を実際の画像の内容や人間の推論と一致させるのに失敗することが多い。
このギャップを埋めるために、我々は、境界ボックスと合成アーティファクトをハイライトする記述的キャプションを付加したAI生成画像のデータセットを構築し、ヒューマンアラインな視覚的テクスチャベース推論の基礎を確立した。
次に,多段階最適化手法を用いてMLLMを微調整し,正確な検出,視覚的局所化,一貫性のあるテキスト記述の目的を段階的にバランスさせる。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において優れた性能を達成し、ベースライン法を著しく上回る。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts [17.31556625041178]
マルチメディア操作は、AIが生成した偽情報と戦う上で重要な課題として浮上した。
本稿では,MLLMが高リスク情報を生成するための新しい対向パイプラインを提案する。
MLLMフレームワークを用いたアーチファクト対応マニピュレーション診断について述べる。
論文 参考訳(メタデータ) (2025-05-23T04:58:27Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - TruthLens:A Training-Free Paradigm for DeepFake Detection [4.64982780843177]
本稿では,視覚的質問応答(VQA)タスクとしてディープフェイク検出を再定義するトレーニングフリーフレームワークであるTruthLensを紹介する。
TruthLensは最先端の大規模視覚言語モデル(LVLM)を使用して視覚的アーティファクトを観察し記述する。
マルチモーダルアプローチを採用することで、TruthLensは視覚的および意味論的推論をシームレスに統合し、イメージをリアルまたはフェイクとして分類するだけでなく、解釈可能な説明を提供する。
論文 参考訳(メタデータ) (2025-03-19T15:41:32Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。