Fugu-MT 論文翻訳(概要): Controllable and Compositional Generation with Latent-Space Energy-Based Models

論文の概要: Controllable and Compositional Generation with Latent-Space Energy-Based Models

arxiv url: http://arxiv.org/abs/2110.10873v1
Date: Thu, 21 Oct 2021 03:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-22 13:57:06.050591
Title: Controllable and Compositional Generation with Latent-Space Energy-Based Models
Title（参考訳）: 潜在空間エネルギーモデルによる制御可能・合成生成
Authors: Weili Nie, Arash Vahdat, Anima Anandkumar
Abstract要約: 制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
参考スコア（独自算出の注目度）: 60.87740144816278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable generation is one of the key requirements for successful adoption of deep generative models in real-world applications, but it still remains as a great challenge. In particular, the compositional ability to generate novel concept combinations is out of reach for most current models. In this work, we use energy-based models (EBMs) to handle compositional generation over a set of attributes. To make them scalable to high-resolution image generation, we introduce an EBM in the latent space of a pre-trained generative model such as StyleGAN. We propose a novel EBM formulation representing the joint distribution of data and attributes together, and we show how sampling from it is formulated as solving an ordinary differential equation (ODE). Given a pre-trained generator, all we need for controllable generation is to train an attribute classifier. Sampling with ODEs is done efficiently in the latent space and is robust to hyperparameters. Thus, our method is simple, fast to train, and efficient to sample. Experimental results show that our method outperforms the state-of-the-art in both conditional sampling and sequential editing. In compositional generation, our method excels at zero-shot generation of unseen attribute combinations. Also, by composing energy functions with logical operators, this work is the first to achieve such compositionality in generating photo-realistic images of resolution 1024x1024.
Abstract（参考訳）: 制御可能な生成は、現実世界のアプリケーションに深い生成モデルを採用する上で重要な要件の1つですが、それでも大きな課題です。特に、新しい概念の組み合わせを生成するための構成能力は、現在のほとんどのモデルには及ばない。本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。高分解能な画像生成を実現するために,StyleGAN のような事前学習された生成モデルの潜在空間に EBM を導入する。本研究では,データと属性の結合分布を表す新しいebm式を提案し,それからのサンプリングを常微分方程式(ode)の解として定式化する方法を示す。事前訓練されたジェネレータがあれば、制御可能なジェネレータは属性分類器を訓練するだけです。 ODEによるサンプリングは潜在空間で効率的に行われ、ハイパーパラメータに対して堅牢である。したがって、この手法は単純で、トレーニングが速く、サンプルが効率的である。実験の結果,本手法は条件付きサンプリングとシーケンシャル編集の両方において,最先端の手法よりも優れていた。合成生成において,本手法は未知の属性の組み合わせのゼロショット生成において優れる。また、エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。

関連論文リスト

Flow Generator Matching [35.371071097381346]
フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。 CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。 MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-25T05:41:28Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。 EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文参考訳（メタデータ） (2023-09-10T22:05:24Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文参考訳（メタデータ） (2022-06-10T12:23:05Z)
Energy-Based Models for Code Generation under Compilability Constraints [2.9176992922046923]
本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すEnergy-Based Model(EBM)を定義する。次に,KL-Adaptive Distributional Policy Gradientアルゴリズムを用いて,EMMを近似した生成モデルを訓練する。
論文参考訳（メタデータ） (2021-06-09T11:06:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。