論文の概要: FakeVLM-R1: Internalizing Physical Laws via CoT for Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2605.30062v1
- Date: Thu, 28 May 2026 15:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.418683
- Title: FakeVLM-R1: Internalizing Physical Laws via CoT for Synthetic Image Detection
- Title(参考訳): FakeVLM-R1:合成画像検出のためのCoTによる物理法則内部化
- Authors: Leqi Zhu, Junyan Ye, Kaiqing Lin, Zhiyuan Yan, Conghui He, Weijia Li,
- Abstract要約: 本稿では,FakeVLM-R1を提案する。
FakeVLM-R1は高精度で論理的に解釈可能な検出を実現する。
また、既存の手法の実際の画像に対する過剰なリジェクションバイアスを解消する。
- 参考スコア(独自算出の注目度): 39.012577080756735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of generative artificial intelligence technologies has propelled the visual realism of synthetic images to an unprecedented level. Although current interpretable detection methods based on Large Multimodal Models (LMMs) have made certain progress, they still rely on imitation learning derived from massive volumes of forged data. Consequently, they lack genuine causal reasoning capabilities and are prone to explanatory hallucinations. To overcome this bottleneck, we propose FakeVLM-R1, aiming to endow the model with human-like critical thinking capabilities when performing synthetic detection tasks. Building upon Supervised Fine-Tuning (SFT), this framework integrates Group Relative Policy Optimization (GRPO) with a Critical Thinking Chain-of-Thought (CoT) mechanism. During the inference phase, the model executes a "bidirectional dialectical reasoning" process: while proposing a forgery hypothesis, it must simultaneously invoke physical commonsense to construct an authenticity counter-proof. Furthermore, we constructed the FakeClue++ dataset with high-quality samples, which extensively introduces annotations guided by the physical laws of authentic images, providing a unified authenticity anchor for the model. Experiments confirm that FakeVLM-R1 achieves SOTA performance the evaluated models across multiple benchmarks. It not only achieves high-precision, logically interpretable detection but also resolves the over-rejection bias of existing methods against real images, demonstrating generalization and robustness against perturbations.
- Abstract(参考訳): 生成人工知能技術の発展は、合成画像の視覚的リアリズムを前例のないレベルに押し上げた。
大規模マルチモーダルモデル(LMM)に基づく現在の解釈可能な検出手法は、一定の進歩を遂げているが、それでも大量の偽データから派生した模倣学習に依存している。
その結果、真の因果推論能力が欠如しており、説明幻覚を起こす傾向にある。
このボトルネックを克服するため,FakeVLM-R1を提案する。
監視ファインチューニング(SFT)に基づいて構築されたこのフレームワークは、グループ相対ポリシー最適化(GRPO)と批判的思考連鎖(CoT)機構を統合している。
推論フェーズの間、モデルは「双方向の弁証的推論」プロセスを実行し、偽仮説を提案する一方で、正当性に対する防御を構築するために物理的コモンセンスを同時に呼び出す必要がある。
さらに、高品質なサンプルを用いたFakeClue++データセットを構築し、実際の画像の物理法則によってガイドされるアノテーションを広範囲に導入し、モデルに統一された認証アンカーを提供する。
実験により、FakeVLM-R1は複数のベンチマークで評価されたモデルに対してSOTA性能を達成することが確認された。
高精度で論理的に解釈可能な検出を実現するだけでなく、既存の手法の実際の画像に対する過剰な拒絶バイアスを解消し、摂動に対する一般化と堅牢性を示す。
関連論文リスト
- Venus-DeFakerOne: Unified Fake Image Detection & Localization [0.0]
InternVL2とSAM2を統合したデータ中心の統合FIDL基盤モデルであるDeFakerOneを提案する。
DeFakerOneは、さまざまなシナリオにわたって、画像レベルの同時検出とピクセルレベルのフォージェリローカライゼーションを可能にする。
データスケーリング法則、ドメイン間アーティファクトの転送・干渉パターン、きめ細かい監督の必要性、および元の解決アーティファクトの保存に関する体系的な分析を提供する。
論文 参考訳(メタデータ) (2026-05-13T20:20:33Z) - Unsupervised Synthetic Image Attribution: Alignment and Disentanglement [55.853285140682665]
そこで我々は,アライメント・アンド・ディスタングルメント(Alignment and Disentanglement)という,シンプルで効果的な教師なしの手法を提案する。
具体的には、コントラッシブな自己教師あり学習を用いて基本的な概念アライメントを実行することから始める。
次に、Infomax損失による表現のゆがみを促進することにより、モデルの属性能力を高める。
論文 参考訳(メタデータ) (2026-01-30T07:31:53Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。