論文の概要: DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
- arxiv url: http://arxiv.org/abs/2511.19111v1
- Date: Mon, 24 Nov 2025 13:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.222799
- Title: DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
- Title(参考訳): DiffSeg30k: 局所AIGC検出のためのマルチTurn拡散編集ベンチマーク
- Authors: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou,
- Abstract要約: 拡散ベースの編集は、局所画像領域の現実的な修正を可能にし、AI生成したコンテンツを検出しにくくする。
DiffSeg30kは、30kの拡散編集画像とピクセルレベルのアノテーションのデータセットで、きめ細かい検出をサポートする。
- 参考スコア(独自算出の注目度): 48.00148913303519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
- Abstract(参考訳): 拡散ベースの編集は、局所画像領域の現実的な修正を可能にし、AI生成したコンテンツを検出しにくくする。
既存のAIGC検出ベンチマークでは、拡散ベースの編集のローカライゼーションを見越して、画像全体の分類に重点を置いている。
我々はDiffSeg30kを紹介した。DiffSeg30kは、30kの拡散編集画像とピクセルレベルのアノテーションのデータセットで、微細な検出をサポートするように設計されている。
DiffSeg30kの機能
1) 現実のコンテンツの多様性を反映させるため,COCOから画像や画像のプロンプトを収集する。
2) 拡散モデル-8つのSOTA拡散モデルを用いた局所的な編集
3)マルチターン編集-実世界のシーケンシャル編集を模倣するために最大3回のシーケンシャル編集を行う。
4)視覚言語モデル(VLM)ベースのパイプラインは,意味のある領域を自動的に識別し,追加,削除,属性変更をカバーするコンテキスト認識プロンプトを生成する。
DiffSeg30kはAIGC検出をバイナリ分類からセマンティックセグメンテーションにシフトし、編集モデルの同時ローカライズと識別を可能にする。
我々は3つのベースラインセグメンテーション手法をベンチマークし、セグメンテーションタスクにおける重要な課題、特に画像歪みに対するロバスト性を明らかにする。
実験により、ピクセルレベルのローカライゼーションを訓練されているにもかかわらず、セグメンテーションモデルは、拡散編集の信頼性の高い全体像分類器として出現し、確立されたフォージェリー分類器よりも優れた性能を示しながら、クロスジェネレータの一般化に大きな可能性を示した。
我々はDiffSeg30kが、セグメンテーションベースの手法の約束と限界を示すことによって、AI生成コンテンツのきめ細かいローカライズに関する研究を進めると信じている。
DiffSeg30k は https://huggingface.co/datasets/Chaos2629/Diffseg30k でリリースされた。
関連論文リスト
- FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models [48.85744313139525]
FragFakeは、画像検出のための最初の専用のベンチマークデータセットである。
画像分類と編集領域ローカライゼーションのタスクにおいて,視覚言語モデル(VLM)を初めて使用した。
この研究は、視覚言語理解タスクとして、局所化画像編集検出を再構成した最初のものである。
論文 参考訳(メタデータ) (2025-05-21T15:22:45Z) - X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。