論文の概要: REDEditing: Relationship-Driven Precise Backdoor Poisoning on Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.14554v1
- Date: Sun, 20 Apr 2025 09:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:48:24.228038
- Title: REDEditing: Relationship-Driven Precise Backdoor Poisoning on Text-to-Image Diffusion Models
- Title(参考訳): RED編集:テキスト-画像拡散モデルによる関係駆動型精密バックドア中毒
- Authors: Chongye Guo, Jinhu Fu, Junfeng Fang, Kun Wang, Guorui Feng,
- Abstract要約: モデル編集によるトレーニング不要なバックドア中毒の新たなパラダイムについて検討する。
本稿では,関係性に基づく正確なバックドア中毒法であるREDEditingを提案する。
本手法は,最先端手法と比較して11%高い攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 16.032239268908313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative AI highlights the importance of text-to-image (T2I) security, particularly with the threat of backdoor poisoning. Timely disclosure and mitigation of security vulnerabilities in T2I models are crucial for ensuring the safe deployment of generative models. We explore a novel training-free backdoor poisoning paradigm through model editing, which is recently employed for knowledge updating in large language models. Nevertheless, we reveal the potential security risks posed by model editing techniques to image generation models. In this work, we establish the principles for backdoor attacks based on model editing, and propose a relationship-driven precise backdoor poisoning method, REDEditing. Drawing on the principles of equivalent-attribute alignment and stealthy poisoning, we develop an equivalent relationship retrieval and joint-attribute transfer approach that ensures consistent backdoor image generation through concept rebinding. A knowledge isolation constraint is proposed to preserve benign generation integrity. Our method achieves an 11\% higher attack success rate compared to state-of-the-art approaches. Remarkably, adding just one line of code enhances output naturalness while improving backdoor stealthiness by 24\%. This work aims to heighten awareness regarding this security vulnerability in editable image generation models.
- Abstract(参考訳): 生成AIの急速な進歩は、特にバックドア中毒の脅威により、テキスト・ツー・イメージ(T2I)セキュリティの重要性を強調している。
T2Iモデルにおけるセキュリティ脆弱性のタイムリーな開示と緩和は、生成モデルの安全なデプロイを保証するために不可欠である。
近年,大規模言語モデルにおける知識更新に用いられているモデル編集を通じて,新たなトレーニングフリーなバックドア中毒パラダイムを探求する。
しかし,画像生成モデルに対して,モデル編集技術がもたらす潜在的なセキュリティリスクを明らかにする。
本研究では,モデル編集に基づくバックドア攻撃の原理を確立し,関係性に基づく正確なバックドア攻撃手法であるREDEditingを提案する。
等価属性アライメントとステルス中毒の原理に基づいて,概念再結合による一貫したバックドア画像生成を保証する等価な関係検索と共同属性転送手法を開発した。
良質な生成整合性を維持するために,知識分離制約を提案する。
本手法は,最先端手法と比較して11倍の攻撃成功率を達成する。
注目すべきは、たった1行のコードを追加することで、アウトプットの自然さが向上し、バックドアのステルスネスが24倍向上することです。
この研究は、編集可能な画像生成モデルにおけるこのセキュリティ脆弱性に対する認識を高めることを目的としている。
関連論文リスト
- REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Attack as Defense: Run-time Backdoor Implantation for Image Content Protection [20.30801340875602]
バックドアアタック(英: backdoor attack)とは、ターゲットモデルに脆弱性を埋め込む方法であり、トリガーを通じてアクティベートできる。
本研究では,画像編集モデルにバックドアを埋め込むことにより,画像コンテンツ修正の悪用を防止する。
データ中毒を使った従来のバックドア攻撃とは異なり、私たちは、ランタイムバックドア移植のための最初のフレームワークを開発しました。
論文 参考訳(メタデータ) (2024-10-19T03:58:25Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。