論文の概要: Towards Explainable Fake Image Detection with Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.14245v1
- Date: Sat, 19 Apr 2025 09:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:52:41.617
- Title: Towards Explainable Fake Image Detection with Multi-Modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによる説明可能なフェイク画像検出に向けて
- Authors: Yikun Ji, Yan Hong, Jiahui Zhan, Haoxing Chen, jun lan, Huijia Zhu, Weiqiang Wang, Liqing Zhang, Jianfu Zhang,
- Abstract要約: 偽画像検出は「ブラックボックス」として動作すべきでないと我々は主張する
本研究では,従来の検出手法や人体評価装置と比較して,MLLMの能力を評価する。
本稿では、これらのプロンプトを統合して、より堅牢で説明可能な、推論駆動型検出システムを開発するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.09674979670241
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Progress in image generation raises significant public security concerns. We argue that fake image detection should not operate as a "black box". Instead, an ideal approach must ensure both strong generalization and transparency. Recent progress in Multi-modal Large Language Models (MLLMs) offers new opportunities for reasoning-based AI-generated image detection. In this work, we evaluate the capabilities of MLLMs in comparison to traditional detection methods and human evaluators, highlighting their strengths and limitations. Furthermore, we design six distinct prompts and propose a framework that integrates these prompts to develop a more robust, explainable, and reasoning-driven detection system. The code is available at https://github.com/Gennadiyev/mllm-defake.
- Abstract(参考訳): 画像生成の進歩は、重大なセキュリティ上の懸念を引き起こす。
我々は、偽画像検出は「ブラックボックス」として動作すべきではないと主張している。
代わりに、理想的なアプローチは、強力な一般化と透明性の両方を保証する必要があります。
MLLM(Multi-modal Large Language Models)の最近の進歩は、推論に基づくAI生成画像検出の新しい機会を提供する。
本研究では,従来の検出法や人的評価法と比較してMLLMの能力を評価し,その強度と限界を強調した。
さらに、6つの異なるプロンプトを設計し、これらのプロンプトを統合して、より堅牢で説明可能な、推論駆動型検出システムを開発するフレームワークを提案する。
コードはhttps://github.com/Gennadiyev/mllm-defake.comで公開されている。
関連論文リスト
- Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics [18.989883830031093]
マルチモーダル大規模言語モデル(LLM)は、豊かな世界の知識を符号化しているが、局所的な偽造の詳細を理解するのに苦労している。
本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。
我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-04-16T01:02:46Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。
既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。
本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文 参考訳(メタデータ) (2024-11-17T08:29:14Z) - FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models [16.737419222106308]
FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断基準を提供するフレームワークである。
実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
論文 参考訳(メタデータ) (2024-10-03T17:59:34Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models [62.66610648697744]
我々は人間の知覚に関する生成的視覚的偽造の分類を導入し、人間の自然言語における偽造記述を収集する。
FakeBenchは、検出、推論、解釈、きめ細かい偽造分析の4つの評価基準でLMMを調べている。
本研究は,偽画像検出領域における透明性へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2024-04-20T07:28:55Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。
しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。
フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。