論文の概要: Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.13706v1
- Date: Sun, 21 Apr 2024 16:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 17:52:05.964381
- Title: Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models
- Title(参考訳): 拡散モデルにおける概念阻害の回避のための概念算術
- Authors: Vitali Petsiuk, Kate Saenko,
- Abstract要約: 拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
- 参考スコア(独自算出の注目度): 58.065255696601604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by ethical and legal concerns, the scientific community is actively developing methods to limit the misuse of Text-to-Image diffusion models for reproducing copyrighted, violent, explicit, or personal information in the generated images. Simultaneously, researchers put these newly developed safety measures to the test by assuming the role of an adversary to find vulnerabilities and backdoors in them. We use compositional property of diffusion models, which allows to leverage multiple prompts in a single image generation. This property allows us to combine other concepts, that should not have been affected by the inhibition, to reconstruct the vector, responsible for target concept generation, even though the direct computation of this vector is no longer accessible. We provide theoretical and empirical evidence why the proposed attacks are possible and discuss the implications of these findings for safe model deployment. We argue that it is essential to consider all possible approaches to image generation with diffusion models that can be employed by an adversary. Our work opens up the discussion about the implications of concept arithmetics and compositional inference for safety mechanisms in diffusion models. Content Advisory: This paper contains discussions and model-generated content that may be considered offensive. Reader discretion is advised. Project page: https://cs-people.bu.edu/vpetsiuk/arc
- Abstract(参考訳): 倫理的、法的懸念から動機づけられた科学コミュニティは、生成した画像の著作権、暴力的、明示的、または個人情報を再現するためのテキスト・画像拡散モデルの誤用を制限する方法を積極的に開発している。
同時に研究者たちは、新たに開発された安全対策を、敵が脆弱性やバックドアを見つける役割を前提としてテストに投入した。
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
この性質により、このベクトルの直接計算がもはやアクセスできないにもかかわらず、阻害の影響を受けない他の概念を組み合わせることができ、ターゲットとなる概念生成に責任を持つベクトルを再構成することができる。
提案した攻撃がなぜ可能かの理論的および実証的な証拠を提供し、これらの発見が安全なモデル展開にもたらす影響について議論する。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
本研究は,拡散モデルにおける概念算術の影響と,安全機構の合成推論に関する議論を開講する。
コンテンツアドバイザリー(Content Advisory): 攻撃的と考えられるかもしれない議論とモデル生成コンテンツを含む。
読者の判断は推奨される。
プロジェクトページ:https://cs-people.bu.edu/vpetsiuk/arc
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Deceptive Diffusion: Generating Synthetic Adversarial Examples [2.7309692684728617]
本稿では, 擬似拡散の概念を導入し, 生成的AIモデルを訓練し, 敵対的画像を生成する。
従来の敵攻撃アルゴリズムは、既存の画像を摂動させ、誤分類を誘発することを目的としている。
偽拡散モデルは、トレーニングやテスト画像に直接関連しない、任意の数の新しい非分類画像を生成することができる。
論文 参考訳(メタデータ) (2024-06-28T10:30:46Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation [36.93643249463899]
拡散モデルによるリスクは、バイアスや有害な画像などの不適切なコンテンツの潜在的な生成である。
これまでの研究は、拡散モデルの解釈可能な潜在空間におけるベクトルを意味論的概念として解釈する。
本稿では,ある概念に対する解釈可能な潜在方向を見つけるための,新たな自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-28T20:40:45Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。