論文の概要: DeContext as Defense: Safe Image Editing in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.16625v1
- Date: Thu, 18 Dec 2025 15:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.111526
- Title: DeContext as Defense: Safe Image Editing in Diffusion Transformers
- Title(参考訳): DeContext as Defense: 拡散変換器の安全な画像編集
- Authors: Linghui Shen, Mingyue Cui, Xingyi Yang,
- Abstract要約: 非許可のインコンテキスト編集から入力画像を保護する新しい方法であるDeContextを提案する。
我々の重要な洞察は、ソース画像からのコンテキスト情報は、主にマルチモーダルアテンション層を通して出力に伝播するということである。
Flux KontextとStep1X-Editの実験は、DeContextが視覚的品質を維持しながら、望ましくない画像編集を一貫してブロックしていることを示している。
- 参考スコア(独自算出の注目度): 38.75847400495247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context diffusion models allow users to modify images with remarkable ease and realism. However, the same power raises serious privacy concerns: personal images can be easily manipulated for identity impersonation, misinformation, or other malicious uses, all without the owner's consent. While prior work has explored input perturbations to protect against misuse in personalized text-to-image generation, the robustness of modern, large-scale in-context DiT-based models remains largely unexamined. In this paper, we propose DeContext, a new method to safeguard input images from unauthorized in-context editing. Our key insight is that contextual information from the source image propagates to the output primarily through multimodal attention layers. By injecting small, targeted perturbations that weaken these cross-attention pathways, DeContext breaks this flow, effectively decouples the link between input and output. This simple defense is both efficient and robust. We further show that early denoising steps and specific transformer blocks dominate context propagation, which allows us to concentrate perturbations where they matter most. Experiments on Flux Kontext and Step1X-Edit show that DeContext consistently blocks unwanted image edits while preserving visual quality. These results highlight the effectiveness of attention-based perturbations as a powerful defense against image manipulation.
- Abstract(参考訳): テキスト内拡散モデルにより、ユーザーは驚くほど簡単でリアルなイメージを修正できる。
個人イメージは、所有者の同意なしに、アイデンティティの偽造、偽情報、その他の悪意のある使用のために容易に操作できる。
従来の研究では、パーソナライズされたテキスト・ツー・イメージ・ジェネレーションにおける誤用を防ぐための入力摂動について検討されてきたが、現代の大規模イン・コンテクストのDiTベースのモデルの堅牢性はほとんど検討されていない。
本稿では,不許可なインコンテキスト編集から入力画像を保護する新しい方法であるDeContextを提案する。
我々の重要な洞察は、ソース画像からのコンテキスト情報は、主にマルチモーダルアテンション層を通して出力に伝播するということである。
これらのクロスアテンションパスを弱める小さな目標摂動を注入することで、DeContextはこの流れを壊し、入力と出力のリンクを効果的に分離する。
この単純な防御は効率的かつ堅牢である。
さらに、初期段階と特定のトランスフォーマーブロックがコンテキスト伝搬を支配しており、最も重要となる摂動に集中できることを示す。
Flux KontextとStep1X-Editの実験は、DeContextが視覚的品質を維持しながら、望ましくない画像編集を一貫してブロックしていることを示している。
これらの結果は、画像操作に対する強力な防御手段としての注意に基づく摂動の有効性を浮き彫りにした。
関連論文リスト
- PromptFlare: Prompt-Generalized Defense via Cross-Attention Decoy in Diffusion-Based Inpainting [25.24109316946351]
PromptFlareは,拡散型塗布モデルによる悪質な修正から画像を保護するために設計された,新たな敵対的保護手法である。
提案手法は, 急速埋め込みの固有特性を利用して, 対向ノイズを注入し, サンプリング過程を抑える。
EditBenchデータセットを用いた実験により,本手法が各種メトリクスの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-22T08:42:46Z) - Is Perturbation-Based Image Protection Disruptive to Image Editing? [4.234664611250363]
現在の画像保護法は、拡散ベースの編集を妨げるために、イメージに知覚できない摂動を追加することに依存している。
画像に対する完全な保護は、編集の試みの出力が望ましくないノイズの多い画像であることを意味する。
我々は、摂動に基づく手法は、拡散に基づく編集に対する堅牢な画像保護に十分な解決策を提供していないと論じる。
論文 参考訳(メタデータ) (2025-06-04T19:20:37Z) - DCT-Shield: A Robust Frequency Domain Defense against Malicious Image Editing [1.7624347338410742]
最近のディフェンスは、拡散ベースの編集モデルの機能を損なうために、ピクセル空間に限られたノイズを加えることで画像を保護する。
本稿では,周波数領域に直接対向摂動を導入する新しい最適化手法を提案する。
JPEGパイプラインを利用して,悪意のある画像編集を効果的に防止する逆画像を生成する。
論文 参考訳(メタデータ) (2025-04-24T19:14:50Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - IMPRESS: Evaluating the Resilience of Imperceptible Perturbations
Against Unauthorized Data Usage in Diffusion-Based Generative AI [52.90082445349903]
拡散ベースの画像生成モデルは、アーティストのスタイルを模倣するアートイメージを作成したり、偽のコンテンツのためにオリジナルの画像を悪意を持って編集することができる。
知覚不能な摂動を追加することによって、元のイメージをそのような不正なデータ使用から保護する試みがいくつかなされている。
本研究では, IMPRESS という浄化摂動プラットフォームを導入し, 非受容性摂動の有効性を保護策として評価する。
論文 参考訳(メタデータ) (2023-10-30T03:33:41Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。