論文の概要: Generate "Normal", Edit Poisoned: Branding Injection via Hint Embedding in Image Editing
- arxiv url: http://arxiv.org/abs/2605.10600v1
- Date: Mon, 11 May 2026 14:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.874364
- Title: Generate "Normal", Edit Poisoned: Branding Injection via Hint Embedding in Image Editing
- Title(参考訳): 画像編集におけるヒント埋め込みによるブランディングインジェクション「Normal」の生成
- Authors: Desen Sun, Jason Hon, Howe Wang, Saarth Rajan, Meng Xu, Sihang Liu,
- Abstract要約: 画像と画像の編集にまつわる新たなセキュリティ脆弱性について検討する。
入力画像に埋め込まれたブランディング情報のように、ほとんど見えないヒントを下流生成モデルで認識することができる。
本稿では,2つの現実的な攻撃シナリオについて検討する。第1に,攻撃者がオンライン画像生成サービスを制御するフィッシングベースの設定について述べる。
2つ目は毒をベースとした設定で、攻撃者は妥協されたテキストと画像の拡散モデルを配布する。
フィッシング攻撃と毒素攻撃に対する平均成功率は87.4%と92.3%である。
- 参考スコア(独自算出の注目度): 1.9922027009343644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of generative AI, users increasingly rely on image-generation models for image design and creation. To achieve faithful outputs, users typically engage in multi-turn interactions during image refinement: a text-to-image generation phase followed by a text-guided image-to-image editing phase. In this paper, we investigate a novel security vulnerability associated with such a workflow. Our key insight is that a nearly invisible hint, like branding information (e.g., a logo), embedded in an input image can be recognized by downstream generative models and subsequently re-rendered onto semantically related objects, even when the user prompt does not explicitly mention it. This form of hidden payload injection makes the attack stealthy. We study two realistic attack scenarios. The first is a phishing-based setting, in which an attacker controls an online image generation service and injects hidden content into generated images before they are returned to users. The second is a poison-based setting, where an attacker distributes a compromised text-to-image diffusion model whose output contains hidden content. We evaluate both attacks using six injected payloads, including well-known logos and customized designs, and demonstrate that the two attacks can achieve success rates of 44.4% and 32.2% on average, respectively, while ensuring the injected logos are visually imperceptible. We also develop a mitigation solution that achieves an average success rate of 87.4% and 92.3% against the phishing-based and poison-based attacks, respectively.
- Abstract(参考訳): 生成AIの急速な進歩により、ユーザーは画像デザインと作成のために画像生成モデルにますます依存している。
忠実な出力を達成するために、ユーザーは通常、画像修正中にマルチターンインタラクションを行う: テキスト・ツー・イメージ生成フェーズと、テキスト・ツー・イメージ編集フェーズが続く。
本稿では,そのようなワークフローに関連する新たなセキュリティ脆弱性について検討する。
私たちのキーとなる洞察は、入力画像に埋め込まれたブランディング情報(例えばロゴ)のようなほとんど見えないヒントは、ユーザが明示的に言及していない場合でも、下流生成モデルによって認識され、その後セマンティック関連オブジェクトに再レンダリングされるということです。
このタイプの隠れペイロードインジェクションは、攻撃をステルスする。
我々は2つの現実的な攻撃シナリオについて研究する。
1つ目はフィッシングベースの設定で、攻撃者はオンライン画像生成サービスを制御し、ユーザーが戻る前に生成された画像に隠されたコンテンツを注入する。
2つ目は毒をベースとした設定で、攻撃者は隠れコンテンツを含む出力を含む妥協されたテキストから画像への拡散モデルを配布する。
両攻撃は、よく知られたロゴとカスタマイズされたデザインを含む6つのペイロードを用いて評価し、それぞれの攻撃が平均44.4%と32.2%の成功率を達成できることを示した。
また,フィッシング攻撃と毒素攻撃に対する平均成功率87.4%,92.3%の緩和策も開発している。
関連論文リスト
- Disciplined Diffusion: Text-to-Image Diffusion Model against NSFW Generation [9.862349752373577]
テキスト・ツー・イメージ(T2I)拡散モデルでは、テキスト・プロンプトから高品質な画像を作成することができる。
有害な入力が与えられた場合、攻撃的または乱雑なイメージを生成できるため、安全上の懸念が生じる。
そこで我々は,Not Safe For Work (NSFW) 生成に対抗して,新しいロバストなテキストと画像の拡散である Disciplined Diffusion (DDiffusion) を提案する。
論文 参考訳(メタデータ) (2026-05-01T21:33:06Z) - Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation [74.5813283875938]
ゼロショット画像・画像生成は知的財産権侵害に重大なリスクをもたらす。
この研究は、個人イメージを誤用から守ることを目的とした、最初の普遍的および認証統合ソリューションであるAdapter Shieldを提示する。
提案手法は, ゼロショット画像合成の不正化において, 最先端の防御を克服する。
論文 参考訳(メタデータ) (2025-11-25T04:49:16Z) - Clean Image May be Dangerous: Data Poisoning Attacks Against Deep Hashing [71.30876587855867]
クリーンなクエリ画像でさえ危険であり、望ましくない画像や違法な画像などの悪意のあるターゲット検索結果が誘導される。
具体的には,まず,対象の深部ハッシュモデルの挙動をシミュレートするために代理モデルを訓練する。
そこで, 毒性画像を生成するため, 厳密な勾配マッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-27T07:54:27Z) - Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models [61.56740897898055]
本稿では,テキストから画像への拡散モデルを操作する新しいデータ中毒手法であるSilent Branding Attackを紹介する。
トレーニングデータに特定の視覚パターンが繰り返し現れると、モデルはその出力で自然にそれを再現することを学ぶ。
我々は、ロゴを元の画像に不当に注入し、自然にブレンドし、検出されないようにする自動データ中毒アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-12T17:21:57Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization [19.635385099376066]
悪意のあるユーザは、DreamBoothのような拡散ベースのカスタマイズメソッドを誤用して、偽画像を作った。
本稿では,拡散モデル出力を阻害する新しい逆攻撃法であるDisDiffを提案する。
論文 参考訳(メタデータ) (2024-05-31T02:45:31Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。