論文の概要: FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics
- arxiv url: http://arxiv.org/abs/2503.24267v1
- Date: Mon, 31 Mar 2025 16:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:00.072340
- Title: FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics
- Title(参考訳): FakeScope: 透明AI生成画像鑑定のための大規模なマルチモーダルエキスパートモデル
- Authors: Yixuan Li, Yu Tian, Yipo Huang, Wei Lu, Shiqi Wang, Weisi Lin, Anderson Rocha,
- Abstract要約: 本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.14786900470158
- License:
- Abstract: The rapid and unrestrained advancement of generative artificial intelligence (AI) presents a double-edged sword: while enabling unprecedented creativity, it also facilitates the generation of highly convincing deceptive content, undermining societal trust. As image generation techniques become increasingly sophisticated, detecting synthetic images is no longer just a binary task: it necessitates interpretable, context-aware methodologies that enhance trustworthiness and transparency. However, existing detection models primarily focus on classification, offering limited explanatory insights into image authenticity. In this work, we propose FakeScope, an expert multimodal model (LMM) tailored for AI-generated image forensics, which not only identifies AI-synthetic images with high accuracy but also provides rich, interpretable, and query-driven forensic insights. We first construct FakeChain dataset that contains linguistic authenticity reasoning based on visual trace evidence, developed through a novel human-machine collaborative framework. Building upon it, we further present FakeInstruct, the largest multimodal instruction tuning dataset containing 2 million visual instructions tailored to enhance forensic awareness in LMMs. FakeScope achieves state-of-the-art performance in both closed-ended and open-ended forensic scenarios. It can distinguish synthetic images with high accuracy while offering coherent and insightful explanations, free-form discussions on fine-grained forgery attributes, and actionable enhancement strategies. Notably, despite being trained exclusively on qualitative hard labels, FakeScope demonstrates remarkable zero-shot quantitative capability on detection, enabled by our proposed token-based probability estimation strategy. Furthermore, FakeScope exhibits strong generalization and in-the-wild ability, ensuring its applicability in real-world scenarios.
- Abstract(参考訳): 創造的人工知能(AI)の迅速かつ制約の無い進歩は、前例のない創造性を実現する一方で、高い説得力のある騙しコンテンツの生成を促進し、社会的信頼を損なう。
画像生成技術が高度化するにつれ、合成画像の検出はもはや単なるバイナリータスクではない。
しかし、既存の検出モデルは、主に分類に焦点を当てており、画像の信頼性に関する説明的洞察が限られている。
本研究では,AI合成画像を高精度に識別するだけでなく,リッチで解釈可能でクエリ駆動の法科学的な洞察を提供する,AI生成画像鑑定のための専門的マルチモーダルモデル(LMM)であるFakeScopeを提案する。
まず、視覚的痕跡証拠に基づく言語的真正性推論を含むFakeChainデータセットを構築し、新しい人間と機械の協調的な枠組みで開発する。
さらに,LMMにおける法医学的認識を高めるために,200万の視覚的指示を含む最大マルチモーダル・インストラクション・チューニング・データセットであるFakeInstructについて述べる。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
一貫性と洞察力に富んだ説明、きめ細かいフォージェリー属性に関する自由形式の議論、アクション可能な拡張戦略を提供しながら、高い精度で合成画像を識別することができる。
特にFakeScopeは、定性的なハードラベルに特化して訓練されているにもかかわらず、トークンベースの確率推定戦略により、検出における顕著なゼロショット量的能力を示す。
さらに、FakeScopeは強力な一般化と内蔵能力を示し、現実世界のシナリオでその適用性を保証する。
関連論文リスト
- SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model [48.547599530927926]
ソーシャルメディア上で共有される合成画像は、広範囲の聴衆を誤解させ、デジタルコンテンツに対する信頼を損なう可能性がある。
ソーシャルメディア画像検出データセット(SID-Set)を紹介する。
本稿では,SIDA という画像深度検出,局所化,説明の枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:12:25Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models [62.66610648697744]
我々は人間の知覚に関する生成的視覚的偽造の分類を導入し、人間の自然言語における偽造記述を収集する。
FakeBenchは、検出、推論、解釈、きめ細かい偽造分析の4つの評価基準でLMMを調べている。
本研究は,偽画像検出領域における透明性へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2024-04-20T07:28:55Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。