論文の概要: X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.11753v1
- Date: Fri, 16 May 2025 23:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.826121
- Title: X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models
- Title(参考訳): X-Edit:テキスト誘導拡散モデルによる画像中の編集の検出と位置決定
- Authors: Valentina Bazyleva, Nicolo Bonettini, Gaurav Bharaj,
- Abstract要約: 実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
- 参考スコア(独自算出の注目度): 3.610796534465868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models have significantly advanced image editing, enabling highly realistic and local modifications based on textual prompts. While these developments expand creative possibilities, their malicious use poses substantial challenges for detection of such subtle deepfake edits. To this end, we introduce Explain Edit (X-Edit), a novel method for localizing diffusion-based edits in images. To localize the edits for an image, we invert the image using a pretrained diffusion model, then use these inverted features as input to a segmentation network that explicitly predicts the edited masked regions via channel and spatial attention. Further, we finetune the model using a combined segmentation and relevance loss. The segmentation loss ensures accurate mask prediction by balancing pixel-wise errors and perceptual similarity, while the relevance loss guides the model to focus on low-frequency regions and mitigate high-frequency artifacts, enhancing the localization of subtle edits. To the best of our knowledge, we are the first to address and model the problem of localizing diffusion-based modified regions in images. We additionally contribute a new dataset of paired original and edited images addressing the current lack of resources for this task. Experimental results demonstrate that X-Edit accurately localizes edits in images altered by text-guided diffusion models, outperforming baselines in PSNR and SSIM metrics. This highlights X-Edit's potential as a robust forensic tool for detecting and pinpointing manipulations introduced by advanced image editing techniques.
- Abstract(参考訳): テキスト誘導拡散モデルでは画像編集が大幅に進歩し、テキストのプロンプトに基づいた極めて現実的で局所的な修正が可能となった。
これらの開発は創造的な可能性を広げる一方で、悪意のある使用は、このような微妙な深層編集を検出する上で重大な課題となる。
この目的のために,画像中の拡散に基づく編集をローカライズする新しい方法である Explain Edit (X-Edit) を導入する。
画像の編集をローカライズするために、事前訓練された拡散モデルを用いて画像を反転させ、これらの反転特徴をチャネルと空間的注意を通して、編集されたマスキング領域を明示的に予測するセグメンテーションネットワークへの入力として使用する。
さらに, セグメンテーションと関連損失を併用してモデルを微調整する。
セグメンテーション損失は、画素単位の誤差と知覚的類似性のバランスをとることによって正確なマスク予測を保証し、レバレンス損失は、モデルを低周波数領域に集中させ、高頻度のアーティファクトを緩和し、微妙な編集の局所化を高める。
我々の知る限りでは、画像中の拡散に基づく修正領域の局所化の問題に最初に対処し、モデル化する。
さらに、このタスクの現在のリソース不足に対処する、ペア化されたオリジナルと編集されたイメージの新しいデータセットをコントリビュートする。
実験の結果、X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズし、PSNRとSSIMの基準線を上回ります。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。