論文の概要: Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.13706v1
- Date: Sun, 21 Apr 2024 16:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 17:52:05.964381
- Title: Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models
- Title(参考訳): 拡散モデルにおける概念阻害の回避のための概念算術
- Authors: Vitali Petsiuk, Kate Saenko,
- Abstract要約: 拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
- 参考スコア(独自算出の注目度): 58.065255696601604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by ethical and legal concerns, the scientific community is actively developing methods to limit the misuse of Text-to-Image diffusion models for reproducing copyrighted, violent, explicit, or personal information in the generated images. Simultaneously, researchers put these newly developed safety measures to the test by assuming the role of an adversary to find vulnerabilities and backdoors in them. We use compositional property of diffusion models, which allows to leverage multiple prompts in a single image generation. This property allows us to combine other concepts, that should not have been affected by the inhibition, to reconstruct the vector, responsible for target concept generation, even though the direct computation of this vector is no longer accessible. We provide theoretical and empirical evidence why the proposed attacks are possible and discuss the implications of these findings for safe model deployment. We argue that it is essential to consider all possible approaches to image generation with diffusion models that can be employed by an adversary. Our work opens up the discussion about the implications of concept arithmetics and compositional inference for safety mechanisms in diffusion models. Content Advisory: This paper contains discussions and model-generated content that may be considered offensive. Reader discretion is advised. Project page: https://cs-people.bu.edu/vpetsiuk/arc
- Abstract(参考訳): 倫理的、法的懸念から動機づけられた科学コミュニティは、生成した画像の著作権、暴力的、明示的、または個人情報を再現するためのテキスト・画像拡散モデルの誤用を制限する方法を積極的に開発している。
同時に研究者たちは、新たに開発された安全対策を、敵が脆弱性やバックドアを見つける役割を前提としてテストに投入した。
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
この性質により、このベクトルの直接計算がもはやアクセスできないにもかかわらず、阻害の影響を受けない他の概念を組み合わせることができ、ターゲットとなる概念生成に責任を持つベクトルを再構成することができる。
提案した攻撃がなぜ可能かの理論的および実証的な証拠を提供し、これらの発見が安全なモデル展開にもたらす影響について議論する。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
本研究は,拡散モデルにおける概念算術の影響と,安全機構の合成推論に関する議論を開講する。
コンテンツアドバイザリー(Content Advisory): 攻撃的と考えられるかもしれない議論とモデル生成コンテンツを含む。
読者の判断は推奨される。
プロジェクトページ:https://cs-people.bu.edu/vpetsiuk/arc
関連論文リスト
- The Stronger the Diffusion Model, the Easier the Backdoor: Data
Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline [33.051071182668174]
本研究では, DMの著作権保護に関連する脆弱性について, バックドアデータ中毒攻撃の導入による検討を行った。
本手法は,拡散モデルのトレーニングや微調整プロセスへのアクセスや制御を必要とせずに動作する。
論文 参考訳(メタデータ) (2024-01-07T08:37:29Z) - Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation [36.93643249463899]
拡散モデルによるリスクは、バイアスや有害な画像などの不適切なコンテンツの潜在的な生成である。
これまでの研究は、拡散モデルの解釈可能な潜在空間におけるベクトルを意味論的概念として解釈する。
本稿では,ある概念に対する解釈可能な潜在方向を見つけるための,新たな自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-28T20:40:45Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Implicit Concept Removal of Diffusion Models [96.03200681493348]
テキスト・ツー・イメージ(T2I)拡散モデルは、透かしや安全でない画像などの不要な概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Towards More Realistic Membership Inference Attacks on Large Diffusion
Models [13.327985433287477]
安定拡散(Stable Diffusion)やミッドジャーニー(Midjourney)などの生成拡散モデルは、様々なアプリケーションに対して視覚的に魅力的で多様な高解像度の画像を生成することができる。
これらのモデルは、何十億ものインターネットソースイメージに基づいてトレーニングされており、著作権保護されたイメージの無許可使用に関する重大な懸念を提起している。
本稿では,サイバーセキュリティコミュニティで知られ,メンバシップ推論攻撃と呼ばれる,特定のイメージがトレーニングセットで使用されているかどうかを判断できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-06-22T15:41:15Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Differentially Private Counterfactuals via Functional Mechanism [47.606474009932825]
本稿では,デプロイされたモデルや説明セットに触れることなく,差分的プライベート・カウンティファクト(DPC)を生成する新しいフレームワークを提案する。
特に、ノイズの多いクラスプロトタイプを構築するための機能機構を備えたオートエンコーダを訓練し、次に潜伏プロトタイプからDPCを導出する。
論文 参考訳(メタデータ) (2022-08-04T20:31:22Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。