論文の概要: Ablating Concepts in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.13516v3
- Date: Wed, 16 Aug 2023 00:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:23:54.915240
- Title: Ablating Concepts in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるアブラッティング概念
- Authors: Nupur Kumari, Bingliang Zhang, Sheng-Yu Wang, Eli Shechtman, Richard
Zhang, Jun-Yan Zhu
- Abstract要約: 大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
- 参考スコア(独自算出の注目度): 57.9371041022838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models can generate high-fidelity images
with powerful compositional ability. However, these models are typically
trained on an enormous amount of Internet data, often containing copyrighted
material, licensed images, and personal photos. Furthermore, they have been
found to replicate the style of various living artists or memorize exact
training samples. How can we remove such copyrighted concepts or images without
retraining the model from scratch? To achieve this goal, we propose an
efficient method of ablating concepts in the pretrained model, i.e., preventing
the generation of a target concept. Our algorithm learns to match the image
distribution for a target style, instance, or text prompt we wish to ablate to
the distribution corresponding to an anchor concept. This prevents the model
from generating target concepts given its text condition. Extensive experiments
show that our method can successfully prevent the generation of the ablated
concept while preserving closely related concepts in the model.
- Abstract(参考訳): 大規模テキストから画像への拡散モデルは、強力な合成能力を持つ高忠実度画像を生成することができる。
しかし、これらのモデルは、典型的には膨大な量のインターネットデータに基づいて訓練され、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
また、様々なライブアーティストのスタイルを再現したり、正確なトレーニングサンプルを記憶したりもしている。
モデルをスクラッチからトレーニングすることなく、そのような著作権付き概念やイメージをどうやって除去できるのか?
この目的を達成するために, 事前学習モデルにおける概念のアブレーション, すなわち, 目標概念の生成を防止できる効率的な手法を提案する。
提案アルゴリズムは,画像の分布を対象のスタイル,例えばテキストのプロンプトと一致させることを学習し,アンカーの概念に対応する分布に対応する。
これにより、テキスト条件によってモデルがターゲット概念を生成することを防止する。
実験により,本手法はモデルに密接に関連する概念を保ちながら,アブレーションの概念の生成を効果的に防止できることを示した。
関連論文リスト
- Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。
本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:42:02Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。
提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文 参考訳(メタデータ) (2024-05-12T14:01:05Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Circumventing Concept Erasure Methods For Text-to-Image Generative
Models [26.804057000265434]
テキストから画像への生成モデルは、非常に幅広い概念のフォトリアリスティック画像を生成することができる。
これらのモデルには、性的に明示的なコンテンツを特徴とする画像を生成する可能性など、多くの欠点がある。
テキスト・ツー・イメージ・モデルからセンシティブな概念を「取り除く」ための様々な手法が提案されている。
論文 参考訳(メタデータ) (2023-08-03T02:34:01Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。