論文の概要: Towards Generalizable Forgery Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2503.21210v2
- Date: Fri, 15 Aug 2025 03:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.234694
- Title: Towards Generalizable Forgery Detection and Reasoning
- Title(参考訳): 一般化可能な偽造検出と推論に向けて
- Authors: Yueying Gao, Dongliang Chang, Bingyao Yu, Haotian Qin, Muxi Diao, Lei Chen, Kongming Liang, Zhanyu Ma,
- Abstract要約: We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 23.858913560970866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and interpretable detection of AI-generated images is essential for mitigating risks associated with AI misuse. However, the substantial domain gap among generative models makes it challenging to develop a generalizable forgery detection model. Moreover, since every pixel in an AI-generated image is synthesized, traditional saliency-based forgery explanation methods are not well suited for this task. To address these challenges, we formulate detection and explanation as a unified Forgery Detection and Reasoning task (FDR-Task), leveraging Multi-Modal Large Language Models (MLLMs) to provide accurate detection through reliable reasoning over forgery attributes. To facilitate this task, we introduce the Multi-Modal Forgery Reasoning dataset (MMFR-Dataset), a large-scale dataset containing 120K images across 10 generative models, with 378K reasoning annotations on forgery attributes, enabling comprehensive evaluation of the FDR-Task. Furthermore, we propose FakeReasoning, a forgery detection and reasoning framework with three key components: 1) a dual-branch visual encoder that integrates CLIP and DINO to capture both high-level semantics and low-level artifacts; 2) a Forgery-Aware Feature Fusion Module that leverages DINO's attention maps and cross-attention mechanisms to guide MLLMs toward forgery-related clues; 3) a Classification Probability Mapper that couples language modeling and forgery detection, enhancing overall performance. Experiments across multiple generative models demonstrate that FakeReasoning not only achieves robust generalization but also outperforms state-of-the-art methods on both detection and reasoning tasks.
- Abstract(参考訳): AI生成画像の正確かつ解釈可能な検出は、AI誤用に伴うリスクを軽減するために不可欠である。
しかし、生成モデル間の領域ギャップは、一般化可能な偽造検出モデルの開発を困難にしている。
さらに、AI生成画像中のすべてのピクセルが合成されるため、従来の唾液ベースの偽造説明法は、このタスクには適していない。
これらの課題に対処するため、我々はFDR-Task(FDR-Task)として検出と説明を定式化し、マルチモーダル大言語モデル(MLLM)を活用し、偽属性に対する信頼性の高い推論による正確な検出を提供する。
この作業を容易にするために、FDR-Taskの総合的な評価を可能にするMulti-Modal Forgery Reasoning dataset (MMFR-Dataset)を導入した。
さらに,3つの重要なコンポーネントを持つ偽検出・推論フレームワークであるFakeReasoningを提案する。
1)CLIPとDINOを統合して高レベルのセマンティクスと低レベルのアーティファクトの両方をキャプチャするデュアルブランチビジュアルエンコーダ。
2)DINOの注意図と横断的注意機構を活用してMLLMを偽造関連手がかりに導くフォージェリー対応機能融合モジュール
3) 言語モデリングと偽検出を組み合わせ、全体的なパフォーマンスを向上させる分類確率マップ。
複数の生成モデルにまたがる実験により、FakeReasoningは堅牢な一般化を達成するだけでなく、検出タスクと推論タスクの両方において最先端の手法よりも優れていることが示された。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection [44.40575446607237]
AI生成画像(AIGI)を効果的に検出する手法が緊急に必要である。
マルチグラニュラリティ局所エントロピーパターン (MLEP) を提案する。
MLEPは、画像のセマンティクスを著しく破壊し、潜在的なコンテンツバイアスを低減しながら、次元とスケールの画素関係を包括的にキャプチャする。
論文 参考訳(メタデータ) (2025-04-18T14:50:23Z) - Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures [13.422002958854936]
本研究は, ポストホックな説明と半教師付き学習を組み合わせて, 異常な説明を自動的に識別するフレームワークを提案する。
提案するフレームワークは,送電網インフラ監視のための絶縁体シェルのドローンによる画像に応用される。
2つの欠陥クラスの平均分類精度は8%向上し、メンテナンス作業者は画像の15%しか手動で再分類する必要がある。
論文 参考訳(メタデータ) (2025-03-19T16:57:00Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主成分を凍結し,残った成分のみを適応させることで,偽造関係のパターンを学習しながら,事前学習した知識を保存できる。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。