論文の概要: Variational Autoencoders with Normalizing Flow Decoders
- arxiv url: http://arxiv.org/abs/2004.05617v1
- Date: Sun, 12 Apr 2020 14:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:04:11.611156
- Title: Variational Autoencoders with Normalizing Flow Decoders
- Title(参考訳): フローデコーダの正規化による変分オートエンコーダ
- Authors: Rogan Morrow, Wei-Chen Chiu
- Abstract要約: この問題に対処するために,Glow と基礎となる変分オートエンコーダを組み合わせることを提案する。
我々は,提案モデルがGlowと画像品質とテスト可能性の面で競合する一方で,トレーニングに要する時間もはるかに少ないことを実証した。
- 参考スコア(独自算出の注目度): 22.289830907729705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently proposed normalizing flow models such as Glow have been shown to be
able to generate high quality, high dimensional images with relatively fast
sampling speed. Due to their inherently restrictive architecture, however, it
is necessary that they are excessively deep in order to train effectively. In
this paper we propose to combine Glow with an underlying variational
autoencoder in order to counteract this issue. We demonstrate that our proposed
model is competitive with Glow in terms of image quality and test likelihood
while requiring far less time for training.
- Abstract(参考訳): 近年,グローなどのノーマライズフローモデルが,比較的高速なサンプリング速度で高品質な高次元画像を生成することが提案されている。
しかし、本質的に制限的な建築であるため、効果的に訓練するには過度に深くなる必要がある。
本稿では,Glowと基礎となる変分オートエンコーダを組み合わせることで,この問題に対処することを提案する。
提案モデルは画像品質とテスト可能性の面ではglowと競合するが,トレーニングに要する時間がはるかに少ないことを実証する。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z) - Wiener Guided DIP for Unsupervised Blind Image Deconvolution [10.440495513371747]
ブラインド・デコンボリューション(英: Blind deconvolution)は、顕微鏡から天文学まで様々な分野で発生する不適切な問題である。
ディープラーニングアーキテクチャは、教師なしのブラインドデコンボリューション最適化中にイメージ生成として機能する。
本稿では,ワイナーデコンボリューションを用いて画像生成を最適化する手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T22:19:13Z) - LCA-Net: Light Convolutional Autoencoder for Image Dehazing [1.433758865948252]
画像のデハジングは、画像の視覚的魅力を改善するために、ヘイズによって生じる不整合ノイズを取り除くために重要な画像前処理タスクである。
提案する汎用モデルは,大気モデルに依存しない非常に軽量な畳み込みエンコーダ・デコーダネットワークを用いている。
このネットワークは、画像品質の面で最先端の手法に匹敵する、いくつかの標準データセットにおいて、より高速に最適なデハージング性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T11:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。