論文の概要: Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection
- arxiv url: http://arxiv.org/abs/2509.25502v1
- Date: Mon, 29 Sep 2025 20:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.942181
- Title: Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection
- Title(参考訳): 推論の前に見る:一般化可能で説明可能なフェイク画像検出のための統一フレームワーク
- Authors: Kaiqing Lin, Zhiyuan Yan, Ruoxin Chen, Junyan Ye, Ke-Yue Zhang, Yue Zhou, Peng Jin, Bin Li, Taiping Yao, Shouhong Ding,
- Abstract要約: この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
- 参考スコア(独自算出の注目度): 58.82268659497348
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Detecting AI-generated images with multimodal large language models (MLLMs) has gained increasing attention, due to their rich world knowledge, common-sense reasoning, and potential for explainability. However, naively applying those MLLMs for detection often leads to suboptimal performance. We argue that the root of this failure lies in a fundamental mismatch: MLLMs are asked to reason about fakes before they can truly see them. First, they do not really see: existing MLLMs' vision encoders are primarily optimized for semantic-oriented recognition rather than the perception of low-level signals, leaving them insensitive to subtle forgery traces. Without access to reliable perceptual evidence, the model grounds its judgment on incomplete and limited visual observations. Second, existing finetuning data for detection typically uses narrow, instruction-style formats, which diverge sharply from the diverse, heterogeneous distributions seen in pretraining. In the absence of meaningful visual cues, the model therefore exploits these linguistic shortcuts, resulting in catastrophic forgetting of pretrained knowledge (even the basic dialogue capabilities). In response, we advocate for a new paradigm: seeing before reasoning. We propose that MLLMs should first be trained to perceive artifacts-strengthening their artifact-aware visual perception-so that subsequent reasoning is grounded in actual observations. We therefore propose Forensic-Chat, a generalizable, explainable, and still-conversational (for multi-round dialogue) assistant for fake image detection. We also propose ExplainFake-Bench, a benchmark tailored for the evaluation of the MLLM's explainability for image forensics from five key aspects. Extensive experiments show its superiority of generalization and genuinely reliable explainability.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)を用いたAI生成画像の検出が注目されている。
しかし、これらのMLLMを間接的に検出に応用すると、しばしば準最適性能が生じる。
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
既存のMLLMの視覚エンコーダは、低レベルの信号の認識よりも、主にセマンティック指向の認識に最適化されており、微妙な偽の痕跡に敏感なままである。
信頼できる知覚的証拠にアクセスできなければ、モデルは不完全で限られた視覚的観察に基づいて判断する。
第二に、検出のための既存の微調整データは、通常、細い命令スタイルのフォーマットを使用し、事前訓練で見られる多様で異質な分布から大きく分岐する。
意味のある視覚的手がかりがない場合、このモデルはこれらの言語的ショートカットを利用するため、事前訓練された知識(基本的な対話能力さえ)を破滅的に忘れてしまう。
これに応えて、我々は新たなパラダイムを提唱する。
MLLMは、まず人工物を認識するために訓練されるべきであり、人工物を認識する視覚的知覚を補強することで、その後の推論が実際の観察に基礎を置いていることを示唆する。
そこで我々は,偽画像検出のための汎用的で説明可能な(多ラウンド対話のための)対話型アシスタントであるForensic-Chatを提案する。
また,5つの重要な側面からMLLMの画像法医学的説明可能性を評価するためのベンチマークであるExplainFake-Benchを提案する。
広範な実験は、一般化と真に信頼できる説明可能性の優位性を示している。
関連論文リスト
- DF-LLaVA: Unlocking MLLM's potential for Synthetic Image Detection via Prompt-Guided Knowledge Injection [29.2145692950572]
我々は,MLLMの本質的な識別可能性を解き放つ,シンプルで効果的なフレームワークであるDF-LLaVAを提案する。
提案手法はまずMLLMから潜伏知識を抽出し,プロンプトによるトレーニングに注入する。
総合実験によりDF-LLaVAの優位性が確認され, 合成画像検出の精度と説明性の両方が得られた。
論文 参考訳(メタデータ) (2025-09-18T13:43:42Z) - Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。
LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。
物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:40:59Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。