論文の概要: ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01402v1
- Date: Sat, 02 Aug 2025 15:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.864356
- Title: ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models
- Title(参考訳): ForenX: マルチモーダル大言語モデルによる説明可能なAI生成画像検出を目指して
- Authors: Chuangchuang Tan, Jinglu Wang, Xiang Ming, Renshuai Tao, Yunchao Wei, Yao Zhao, Yan Lu,
- Abstract要約: ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
- 参考スコア(独自算出の注目度): 82.04858317800097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in generative models have led to AI-generated images visually indistinguishable from authentic ones. Despite numerous studies on detecting AI-generated images with classifiers, a gap persists between such methods and human cognitive forensic analysis. We present ForenX, a novel method that not only identifies the authenticity of images but also provides explanations that resonate with human thoughts. ForenX employs the powerful multimodal large language models (MLLMs) to analyze and interpret forensic cues. Furthermore, we overcome the limitations of standard MLLMs in detecting forgeries by incorporating a specialized forensic prompt that directs the MLLMs attention to forgery-indicative attributes. This approach not only enhance the generalization of forgery detection but also empowers the MLLMs to provide explanations that are accurate, relevant, and comprehensive. Additionally, we introduce ForgReason, a dataset dedicated to descriptions of forgery evidences in AI-generated images. Curated through collaboration between an LLM-based agent and a team of human annotators, this process provides refined data that further enhances our model's performance. We demonstrate that even limited manual annotations significantly improve explanation quality. We evaluate the effectiveness of ForenX on two major benchmarks. The model's explainability is verified by comprehensive subjective evaluations.
- Abstract(参考訳): 生成モデルの進歩により、AIが生成した画像は、本物と区別できない。
分類器を用いたAI生成画像の検出に関する多くの研究にもかかわらず、そのような方法と人間の認知法医学的分析との間にはギャップが持続している。
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
さらに,フォージェリー検出における標準MLLMの限界を克服するために,MLLMの注意をフォージェリー表示属性に向ける特別の法定プロンプトを取り入れた。
このアプローチは、偽造検出の一般化を促進させるだけでなく、MLLMに正確で関連性があり包括的な説明を提供する権限を与える。
さらに、AI生成画像における偽証拠の記述専用のデータセットであるForgReasonについても紹介する。
LLMをベースとしたエージェントと人間のアノテータのチームとのコラボレーションによって、このプロセスは洗練されたデータを提供し、モデルの性能をさらに向上させる。
制限された手動アノテーションでさえ、説明の質を著しく向上させることを示した。
2つの主要なベンチマークにおけるForenXの有効性を評価する。
モデルの説明性は包括的主観的評価によって検証される。
関連論文リスト
- AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。
大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。
本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。
さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文 参考訳(メタデータ) (2025-07-03T14:26:31Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - FakeReasoning: Towards Generalizable Forgery Detection and Reasoning [24.8865218866598]
フォージェリ検出・推論タスク(FDR-Task)としてのAI生成画像の検出と説明のモデル化を提案する。
10つの生成モデルにわたる100K画像を含む大規模データセットであるMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を紹介する。
また、FakeReasoningという2つの重要なコンポーネントを持つ偽検出および推論フレームワークも提案する。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。