論文の概要: Controllable and Compositional Generation with Latent-Space Energy-Based
Models
- arxiv url: http://arxiv.org/abs/2110.10873v1
- Date: Thu, 21 Oct 2021 03:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 13:57:06.050591
- Title: Controllable and Compositional Generation with Latent-Space Energy-Based
Models
- Title(参考訳): 潜在空間エネルギーモデルによる制御可能・合成生成
- Authors: Weili Nie, Arash Vahdat, Anima Anandkumar
- Abstract要約: 制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 60.87740144816278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable generation is one of the key requirements for successful
adoption of deep generative models in real-world applications, but it still
remains as a great challenge. In particular, the compositional ability to
generate novel concept combinations is out of reach for most current models. In
this work, we use energy-based models (EBMs) to handle compositional generation
over a set of attributes. To make them scalable to high-resolution image
generation, we introduce an EBM in the latent space of a pre-trained generative
model such as StyleGAN. We propose a novel EBM formulation representing the
joint distribution of data and attributes together, and we show how sampling
from it is formulated as solving an ordinary differential equation (ODE). Given
a pre-trained generator, all we need for controllable generation is to train an
attribute classifier. Sampling with ODEs is done efficiently in the latent
space and is robust to hyperparameters. Thus, our method is simple, fast to
train, and efficient to sample. Experimental results show that our method
outperforms the state-of-the-art in both conditional sampling and sequential
editing. In compositional generation, our method excels at zero-shot generation
of unseen attribute combinations. Also, by composing energy functions with
logical operators, this work is the first to achieve such compositionality in
generating photo-realistic images of resolution 1024x1024.
- Abstract(参考訳): 制御可能な生成は、現実世界のアプリケーションに深い生成モデルを採用する上で重要な要件の1つですが、それでも大きな課題です。
特に、新しい概念の組み合わせを生成するための構成能力は、現在のほとんどのモデルには及ばない。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
高分解能な画像生成を実現するために,StyleGAN のような事前学習された生成モデルの潜在空間に EBM を導入する。
本研究では,データと属性の結合分布を表す新しいebm式を提案し,それからのサンプリングを常微分方程式(ode)の解として定式化する方法を示す。
事前訓練されたジェネレータがあれば、制御可能なジェネレータは属性分類器を訓練するだけです。
ODEによるサンプリングは潜在空間で効率的に行われ、ハイパーパラメータに対して堅牢である。
したがって、この手法は単純で、トレーニングが速く、サンプルが効率的である。
実験の結果,本手法は条件付きサンプリングとシーケンシャル編集の両方において,最先端の手法よりも優れていた。
合成生成において,本手法は未知の属性の組み合わせのゼロショット生成において優れる。
また、エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
関連論文リスト
- Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery
Likelihood [70.96045509920326]
高次元データに対する最大推定値のトレーニングエネルギーベースモデル(EBMs)は、困難かつ時間を要する可能性がある。
本研究では,データセットの雑音の増大する頂点上で定義された一連のEMMから,協調拡散回復確率(CDRL)を抽出し,抽出する手法を提案する。
CIFAR-10 と ImageNet 32x32 の既存 EBM 法と比較して FID のスコアが大幅に向上し,DRL を2倍高速化した。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - Effective Dynamics of Generative Adversarial Networks [16.51305515824504]
GAN(Generative Adversarial Network)は、新しいサンプルを生成するために対人訓練を使用する機械学習モデルのクラスである。
モード崩壊と呼ばれるトレーニング失敗の1つの主要な形態は、ジェネレータがターゲット確率分布におけるモードの完全な多様性を再現できないことである。
本稿では,ジェネレータニューラルネットワークを出力空間内の粒子の集合に置き換えることで,学習ダイナミクスを捕捉するGANトレーニングの効果的なモデルを提案する。
論文 参考訳(メタデータ) (2022-12-08T22:04:01Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文 参考訳(メタデータ) (2021-12-24T02:18:34Z) - Energy-Based Models for Code Generation under Compilability Constraints [2.9176992922046923]
本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。
本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すEnergy-Based Model(EBM)を定義する。
次に,KL-Adaptive Distributional Policy Gradientアルゴリズムを用いて,EMMを近似した生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-06-09T11:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。