論文の概要: NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation
- arxiv url: http://arxiv.org/abs/2106.13435v1
- Date: Fri, 25 Jun 2021 05:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:06:58.584768
- Title: NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation
- Title(参考訳): NP-DRAW:画像生成のための非パラメータ構造潜在変数モデル
- Authors: Xiaohui Zeng, Raquel Urtasun, Richard Zemel, Sanja Fidler, Renjie Liao
- Abstract要約: NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
- 参考スコア(独自算出の注目度): 139.8037697822064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a non-parametric structured latent variable model
for image generation, called NP-DRAW, which sequentially draws on a latent
canvas in a part-by-part fashion and then decodes the image from the canvas.
Our key contributions are as follows. 1) We propose a non-parametric prior
distribution over the appearance of image parts so that the latent variable
``what-to-draw'' per step becomes a categorical random variable. This improves
the expressiveness and greatly eases the learning compared to Gaussians used in
the literature. 2) We model the sequential dependency structure of parts via a
Transformer, which is more powerful and easier to train compared to RNNs used
in the literature. 3) We propose an effective heuristic parsing algorithm to
pre-train the prior. Experiments on MNIST, Omniglot, CIFAR-10, and CelebA show
that our method significantly outperforms previous structured image models like
DRAW and AIR and is competitive to other generic generative models. Moreover,
we show that our model's inherent compositionality and interpretability bring
significant benefits in the low-data learning regime and latent space editing.
Code is available at \url{https://github.com/ZENGXH/NPDRAW}.
- Abstract(参考訳): 本稿では、NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
主な貢献は以下の通りである。
1)ステップ毎の潜在変数 `what-to-draw''' がカテゴリ確率変数となるように,画像部分の出現に関する非パラメトリック事前分布を提案する。
これにより表現性が向上し、文学で使用されるガウス語と比較して学習が大幅に楽になる。
2)本論文では,トランスフォーマーを用いて部品の逐次依存性構造をモデル化する。
3) 事前学習のための効果的なヒューリスティック解析アルゴリズムを提案する。
MNIST,Omniglot,CIFAR-10,CelebAによる実験により,本手法は従来のDRAWやAIRなどの画像モデルよりも大幅に優れており,他のジェネリック生成モデルと競合することを示す。
さらに,本モデル固有の構成性や解釈性は,低データ学習システムや潜在空間編集において大きなメリットをもたらすことを示す。
コードは \url{https://github.com/ZENGXH/NPDRAW} で入手できる。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Radon cumulative distribution transform subspace modeling for image
classification [18.709734704950804]
画像変形モデルの幅広いクラスに適用可能な新しい教師付き画像分類法を提案する。
この方法は、画像データに先述のRandon Cumulative Distribution Transform(R-CDT)を用いる。
テスト精度の向上に加えて,計算効率の向上も示す。
論文 参考訳(メタデータ) (2020-04-07T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。