論文の概要: Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2212.08698v1
- Date: Fri, 16 Dec 2022 19:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:14:39.479181
- Title: Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models
- Title(参考訳): テキストから画像への拡散モデルにおける絡み合い能力の解明
- Authors: Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong
Yu, Zhe Lin, Yang Zhang, Shiyu Chang
- Abstract要約: 画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
- 参考スコア(独自算出の注目度): 60.63556257324894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have been widely studied in computer vision. Recently,
diffusion models have drawn substantial attention due to the high quality of
their generated images. A key desired property of image generative models is
the ability to disentangle different attributes, which should enable
modification towards a style without changing the semantic content, and the
modification parameters should generalize to different images. Previous studies
have found that generative adversarial networks (GANs) are inherently endowed
with such disentanglement capability, so they can perform disentangled image
editing without re-training or fine-tuning the network. In this work, we
explore whether diffusion models are also inherently equipped with such a
capability. Our finding is that for stable diffusion models, by partially
changing the input text embedding from a neutral description (e.g., "a photo of
person") to one with style (e.g., "a photo of person with smile") while fixing
all the Gaussian random noises introduced during the denoising process, the
generated images can be modified towards the target style without changing the
semantic content. Based on this finding, we further propose a simple,
light-weight image editing algorithm where the mixing weights of the two text
embeddings are optimized for style matching and content preservation. This
entire process only involves optimizing over around 50 parameters and does not
fine-tune the diffusion model itself. Experiments show that the proposed method
can modify a wide range of attributes, with the performance outperforming
diffusion-model-based image-editing algorithms that require fine-tuning. The
optimized weights generalize well to different images. Our code is publicly
available at https://github.com/UCSB-NLP-Chang/DiffusionDisentanglement.
- Abstract(参考訳): 生成モデルはコンピュータビジョンで広く研究されている。
近年,画像の高品質化により拡散モデルが注目されている。
画像生成モデルの望ましい特性は、異なる属性を分離する能力であり、意味的内容を変更することなくスタイルへの修正を可能にし、変更パラメータを異なる画像に一般化する必要がある。
これまでの研究では、ジェネレーティブ・アドバーサル・ネットワーク(gan)は本質的にそのような不等角化能力を有しており、ネットワークの再訓練や微調整をすることなく、不等角化画像編集を行うことができる。
本研究では,拡散モデルが本質的にそのような能力を備えているかどうかを考察する。
安定な拡散モデルでは、入力テキストの埋め込みを中性記述(例えば「人の写真」)からスタイルのあるもの(例えば「笑顔の人の写真」)に部分的に変更し、デノナイズプロセス中に導入されたガウス的ランダムノイズを全て修正することで、生成した画像はセマンティック内容を変更することなくターゲットスタイルに修正できる。
そこで本研究では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,簡易で軽量な画像編集アルゴリズムを提案する。
このプロセス全体は50以上のパラメータを最適化するだけで、拡散モデル自体を微調整しない。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムの性能を上回って,幅広い属性の修正が可能であることが示された。
最適化された重み付けは、異なる画像にうまく一般化する。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/DiffusionDisentanglement.comで公開されています。
関連論文リスト
- Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations [32.892042877725125]
現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
凍結した埋め込み画像から入力画像の再構成を訓練した拡散モデルにより,小さなバリエーションで画像の再構成が可能であることを示す。
本稿では,画像ペアの集合を用いて画像の変動を生成するための事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:58:03Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。