論文の概要: Immunizing Images from Text to Image Editing via Adversarial Cross-Attention
- arxiv url: http://arxiv.org/abs/2509.10359v1
- Date: Fri, 12 Sep 2025 15:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.148376
- Title: Immunizing Images from Text to Image Editing via Adversarial Cross-Attention
- Title(参考訳): テキストから画像編集への対向的クロスアテンションによる画像の免疫
- Authors: Matteo Trippodo, Federico Becattini, Lorenzo Seidenari,
- Abstract要約: 本稿では,編集手法の視覚的構成要素を標的とした新たな攻撃を提案する。
本稿では,テキストプロンプトと画像の視覚的表現との交差注意を妨害するアテンションアタックを紹介する。
TEDBench++ベンチマークで行った実験では、我々の攻撃は認識不能なまま編集性能を著しく低下させることが示された。
- 参考スコア(独自算出の注目度): 17.498230426195114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in text-based image editing have enabled fine-grained manipulation of visual content guided by natural language. However, such methods are susceptible to adversarial attacks. In this work, we propose a novel attack that targets the visual component of editing methods. We introduce Attention Attack, which disrupts the cross-attention between a textual prompt and the visual representation of the image by using an automatically generated caption of the source image as a proxy for the edit prompt. This breaks the alignment between the contents of the image and their textual description, without requiring knowledge of the editing method or the editing prompt. Reflecting on the reliability of existing metrics for immunization success, we propose two novel evaluation strategies: Caption Similarity, which quantifies semantic consistency between original and adversarial edits, and semantic Intersection over Union (IoU), which measures spatial layout disruption via segmentation masks. Experiments conducted on the TEDBench++ benchmark demonstrate that our attack significantly degrades editing performance while remaining imperceptible.
- Abstract(参考訳): テキストベースの画像編集の最近の進歩により、自然言語で案内される視覚的コンテンツのきめ細かい操作が可能になった。
しかし、このような手法は敵攻撃の影響を受けやすい。
本研究では,編集手法の視覚的構成要素を標的とした新たな攻撃手法を提案する。
本稿では,テキストプロンプトと画像の視覚的表現との交叉を,編集プロンプトのプロキシとして自動的に生成されたソースイメージのキャプションを用いて妨害するアテンションアタックを紹介する。
これにより、編集方法や編集プロンプトの知識を必要とせず、画像の内容とテキスト記述との整合性を損なう。
免疫成功のための既存の指標の信頼性を反映して,オリジナル編集と逆編集のセマンティック一貫性を定量化するキャプション類似性(Caption similarity)と,セグメンテーションマスクによる空間的レイアウト分割を測定するセマンティック・インターセクション(IoU)の2つの新しい評価戦略を提案する。
TEDBench++ベンチマークで行った実験では、我々の攻撃は認識不能なまま編集性能を著しく低下させることが示された。
関連論文リスト
- Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。
本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。
我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文 参考訳(メタデータ) (2025-04-03T17:59:58Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Prompt Augmentation for Self-supervised Text-guided Image Manipulation [34.01939157351624]
本稿では,複数のターゲットプロンプトに単一入力プロンプトを増幅し,テキストコンテキストを強化し,局所的な画像編集を可能にするプロンプト拡張手法を提案する。
本稿では,編集領域を分割し,保存領域を近くまで描画することで,効率的な画像編集を行うためのコントラストロスを提案する。
拡散モデルに新たな損失が組み込まれ、公開データセット上の改善された、あるいは競合的な画像編集結果と、最先端のアプローチによる生成画像が示される。
論文 参考訳(メタデータ) (2024-12-17T16:54:05Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。