論文の概要: Auto-regressive Image Synthesis with Integrated Quantization
- arxiv url: http://arxiv.org/abs/2207.10776v1
- Date: Thu, 21 Jul 2022 22:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:56:02.057326
- Title: Auto-regressive Image Synthesis with Integrated Quantization
- Title(参考訳): 統合量子化による自己回帰画像合成
- Authors: Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Kaiwen Cui,
Changgong Zhang, Shijian Lu
- Abstract要約: 本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
- 参考スコア(独自算出の注目度): 55.51231796778219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models have achieved conspicuous progress in realistic image
synthesis with multifarious conditional inputs, while generating diverse yet
high-fidelity images remains a grand challenge in conditional image generation.
This paper presents a versatile framework for conditional image generation
which incorporates the inductive bias of CNNs and powerful sequence modeling of
auto-regression that naturally leads to diverse image generation. Instead of
independently quantizing the features of multiple domains as in prior research,
we design an integrated quantization scheme with a variational regularizer that
mingles the feature discretization in multiple domains, and markedly boosts the
auto-regressive modeling performance. Notably, the variational regularizer
enables to regularize feature distributions in incomparable latent spaces by
penalizing the intra-domain variations of distributions. In addition, we design
a Gumbel sampling strategy that allows to incorporate distribution uncertainty
into the auto-regressive training procedure. The Gumbel sampling substantially
mitigates the exposure bias that often incurs misalignment between the training
and inference stages and severely impairs the inference performance. Extensive
experiments over multiple conditional image generation tasks show that our
method achieves superior diverse image generation performance qualitatively and
quantitatively as compared with the state-of-the-art.
- Abstract(参考訳): 深層生成モデルは多彩な条件入力による現実的な画像合成において顕著な進歩を遂げているが、多様で高忠実な画像を生成することは条件付き画像生成における大きな課題である。
本稿では、CNNの帰納バイアスと、自然に多様な画像を生成する自動回帰の強力なシーケンスモデリングを組み込んだ条件付き画像生成のための多目的フレームワークを提案する。
先行研究のように、複数のドメインの特徴を独立に定量化する代わりに、複数のドメインで特徴の離散化を混合する変分正規化器を備えた統合量子化スキームを設計し、自動回帰モデリング性能を著しく向上させる。
特に、変分正規化器は、分布の領域内変動をペナルティ化することにより、比較不能な潜在空間における特徴分布を正則化することができる。
さらに,自動回帰訓練手法に分布不確実性を組み込むGumbelサンプリング戦略を設計する。
ガムベルサンプリングは、トレーニングと推論段階のミスアライメントをしばしば生じさせる露光バイアスを著しく軽減し、推論性能を著しく損なう。
複数の条件付き画像生成タスクに関する広範囲な実験により,本手法は最先端と比較して質的かつ定量的に優れた画像生成性能が得られることを示した。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。