論文の概要: FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.15644v1
- Date: Wed, 21 May 2025 15:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.738441
- Title: FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models
- Title(参考訳): FragFake:視覚言語モデルを用いた画像の細粒度検出用データセット
- Authors: Zhen Sun, Ziyi Zhang, Zeren Luo, Zeyang Sha, Tianshuo Cong, Zheng Li, Shiwen Cui, Weiqiang Wang, Jiaheng Wei, Xinlei He, Qi Li, Qian Wang,
- Abstract要約: FragFakeは、画像検出のための最初の専用のベンチマークデータセットである。
画像分類と編集領域ローカライゼーションのタスクにおいて,視覚言語モデル(VLM)を初めて使用した。
この研究は、視覚言語理解タスクとして、局所化画像編集検出を再構成した最初のものである。
- 参考スコア(独自算出の注目度): 48.85744313139525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained edited image detection of localized edits in images is crucial for assessing content authenticity, especially given that modern diffusion models and image editing methods can produce highly realistic manipulations. However, this domain faces three challenges: (1) Binary classifiers yield only a global real-or-fake label without providing localization; (2) Traditional computer vision methods often rely on costly pixel-level annotations; and (3) No large-scale, high-quality dataset exists for modern image-editing detection techniques. To address these gaps, we develop an automated data-generation pipeline to create FragFake, the first dedicated benchmark dataset for edited image detection, which includes high-quality images from diverse editing models and a wide variety of edited objects. Based on FragFake, we utilize Vision Language Models (VLMs) for the first time in the task of edited image classification and edited region localization. Experimental results show that fine-tuned VLMs achieve higher average Object Precision across all datasets, significantly outperforming pretrained models. We further conduct ablation and transferability analyses to evaluate the detectors across various configurations and editing scenarios. To the best of our knowledge, this work is the first to reformulate localized image edit detection as a vision-language understanding task, establishing a new paradigm for the field. We anticipate that this work will establish a solid foundation to facilitate and inspire subsequent research endeavors in the domain of multimodal content authenticity.
- Abstract(参考訳): 画像中の局所的編集のきめ細かい編集画像検出は、特に現代拡散モデルや画像編集手法が極めて現実的な操作を可能にすることを考えると、コンテンツの信頼性を評価する上で重要である。
しかし,本ドメインでは,(1)ローカライゼーションを伴わないグローバルな実写ラベルのみを生成,(2)コストの高いピクセルレベルのアノテーションに依存する従来のコンピュータビジョン手法,(3)現代の画像編集検出技術には大規模で高品質なデータセットが存在しない,という3つの課題に直面している。
これらのギャップに対処するため,我々はFragFakeという,さまざまな編集モデルと多種多様な編集対象からの高品質な画像を含む,画像検出のための最初の専用のベンチマークデータセットを作成するための,自動データ生成パイプラインを開発した。
FragFakeをベースとして、画像分類と編集領域ローカライゼーションのタスクにおいて、視覚言語モデル(VLM)を初めて活用する。
実験結果から、微調整されたVLMは、全てのデータセットでより高い平均オブジェクト精度を達成し、事前訓練されたモデルよりも大幅に優れていることが示された。
さらに、様々な構成および編集シナリオにおける検出器の評価のために、アブレーションと転送可能性の分析を行う。
我々の知る限り、この研究は視覚言語理解タスクとして局所的な画像編集検出を再構成し、この分野の新しいパラダイムを確立した最初のものである。
我々は,本研究が,マルチモーダルコンテンツ認証分野におけるその後の研究を円滑に促進し,刺激するための確固たる基盤を確立することを期待する。
関連論文リスト
- X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Rethinking Image Editing Detection in the Era of Generative AI
Revolution [13.605053073689751]
GREデータセットは、以下の利点を持つ大規模な生成地域編集データセットである。
提案する3つの課題として,編集画像分類,編集手法属性,編集領域ローカライゼーションの3つの実験を行った。
GREデータセットは、生成領域編集検出の分野におけるさらなる研究と探索を促進することを期待する。
論文 参考訳(メタデータ) (2023-11-29T07:35:35Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。