論文の概要: DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline
- arxiv url: http://arxiv.org/abs/2511.23377v1
- Date: Fri, 28 Nov 2025 17:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.997715
- Title: DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline
- Title(参考訳): DEAL-300K:300Kスケールデータセットと周波数プロンプトベースラインを用いた拡散型編集領域ローカライゼーション
- Authors: Rui Zhang, Hongxia Wang, Hangqing Liu, Yang Zhou, Qiang Zeng,
- Abstract要約: 拡散に基づく画像操作(DIML)は、局所化が難しい現実的な局所的偽造を可能にする。
拡散型画像ローカライゼーション(DIML)のための大規模データセットを30万枚以上の画像を用いて提案する。
本稿では,VFM(Frowd Visual Foundation Model)とT(Multi Frequency Prompt Tuning)を併用したローカライゼーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.338550669094655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image editing has made semantic level image manipulation easy for general users, but it also enables realistic local forgeries that are hard to localize. Existing benchmarks mainly focus on the binary detection of generated images or the localization of manually edited regions and do not reflect the properties of diffusion-based edits, which often blend smoothly into the original content. We present Diffusion-Based Image Editing Area Localization Dataset (DEAL-300K), a large scale dataset for diffusion-based image manipulation localization (DIML) with more than 300,000 annotated images. We build DEAL-300K by using a multi-modal large language model to generate editing instructions, a mask-free diffusion editor to produce manipulated images, and an active-learning change detection pipeline to obtain pixel-level annotations. On top of this dataset, we propose a localization framework that uses a frozen Visual Foundation Model (VFM) together with Multi Frequency Prompt Tuning (MFPT) to capture both semantic and frequency-domain cues of edited regions. Trained on DEAL-300K, our method reaches a pixel-level F1 score of 82.56% on our test split and 80.97% on the external CoCoGlide benchmark, providing strong baselines and a practical foundation for future DIML research.The dataset can be accessed via https://github.com/ymhzyj/DEAL-300K.
- Abstract(参考訳): 拡散に基づく画像編集により、一般ユーザにとって意味レベルの画像操作が容易になったが、ローカライズが難しい現実的な局所的偽造も可能になった。
既存のベンチマークは主に、生成された画像のバイナリ検出や手作業による編集領域のローカライズに重点を置いており、拡散ベースの編集の特性を反映していない。
拡散型画像編集領域ローカライゼーションデータセット(DEAL-300K)について,30万以上の注釈付き画像を用いた拡散型画像編集領域ローカライゼーション(DIML)の大規模データセットを提案する。
マルチモーダルな大言語モデルを用いて、編集命令を生成するDEAL-300K、操作された画像を生成するマスクフリー拡散エディタ、画素レベルのアノテーションを得るためのアクティブラーニング変更検出パイプラインを用いて、DEAL-300Kを構築した。
このデータセットの上に,凍結したVisual Foundation Model (VFM) とMFPT(Multi Frequency Prompt Tuning)を用いて,編集領域のセマンティックと周波数領域の両方のキューをキャプチャするローカライズフレームワークを提案する。
DEAL-300Kをトレーニングし、テスト分割で82.56%、外部CoCoGlideベンチマークで80.97%のピクセルレベルF1スコアに達し、強力なベースラインと将来のDIML研究のための実用的な基盤を提供する。
関連論文リスト
- DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection [48.00148913303519]
拡散ベースの編集は、局所画像領域の現実的な修正を可能にし、AI生成したコンテンツを検出しにくくする。
DiffSeg30kは、30kの拡散編集画像とピクセルレベルのアノテーションのデータセットで、きめ細かい検出をサポートする。
論文 参考訳(メタデータ) (2025-11-24T13:43:54Z) - FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models [48.85744313139525]
FragFakeは、画像検出のための最初の専用のベンチマークデータセットである。
画像分類と編集領域ローカライゼーションのタスクにおいて,視覚言語モデル(VLM)を初めて使用した。
この研究は、視覚言語理解タスクとして、局所化画像編集検出を再構成した最初のものである。
論文 参考訳(メタデータ) (2025-05-21T15:22:45Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の66~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。