Fugu-MT 論文翻訳(概要): Variational Autoencoders with Normalizing Flow Decoders

論文の概要: Variational Autoencoders with Normalizing Flow Decoders

arxiv url: http://arxiv.org/abs/2004.05617v1
Date: Sun, 12 Apr 2020 14:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 05:04:11.611156
Title: Variational Autoencoders with Normalizing Flow Decoders
Title（参考訳）: フローデコーダの正規化による変分オートエンコーダ
Authors: Rogan Morrow, Wei-Chen Chiu
Abstract要約: この問題に対処するために,Glow と基礎となる変分オートエンコーダを組み合わせることを提案する。我々は,提案モデルがGlowと画像品質とテスト可能性の面で競合する一方で,トレーニングに要する時間もはるかに少ないことを実証した。
参考スコア（独自算出の注目度）: 22.289830907729705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently proposed normalizing flow models such as Glow have been shown to be able to generate high quality, high dimensional images with relatively fast sampling speed. Due to their inherently restrictive architecture, however, it is necessary that they are excessively deep in order to train effectively. In this paper we propose to combine Glow with an underlying variational autoencoder in order to counteract this issue. We demonstrate that our proposed model is competitive with Glow in terms of image quality and test likelihood while requiring far less time for training.
Abstract（参考訳）: 近年,グローなどのノーマライズフローモデルが,比較的高速なサンプリング速度で高品質な高次元画像を生成することが提案されている。しかし、本質的に制限的な建築であるため、効果的に訓練するには過度に深くなる必要がある。本稿では,Glowと基礎となる変分オートエンコーダを組み合わせることで,この問題に対処することを提案する。提案モデルは画像品質とテスト可能性の面ではglowと競合するが,トレーニングに要する時間がはるかに少ないことを実証する。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Prompt-Aware Scheduling for Efficient Text-to-Image Inferencing System [6.305230222189566]
本研究は,様々な近似レベルで動作している同一モデルの複数インスタンス間のプロンプトを最適に一致させて,高負荷および固定予算下で高品質な画像を提供する,新しいテキスト・ツー・イメージ推論システムを提案する。
論文参考訳（メタデータ） (2025-01-29T03:17:48Z)
JetFormer: An Autoregressive Generative Model of Raw Images and Text [62.2573739835562]
本稿では,生データの可能性を直接最大化するために,自動回帰デコーダのみの変換器であるJetFormerを提案する。我々は正規化フローモデルを利用して,自己回帰型マルチモーダル変換器で共同で訓練したソフトトーン画像表現を得る。 JetFormerは、最近のVQ-VAEおよびVAEベースのベースラインと競合するテキスト・画像生成品質を実現する。
論文参考訳（メタデータ） (2024-11-29T14:14:59Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。 FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文参考訳（メタデータ） (2024-09-26T17:59:51Z)
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-02T17:59:18Z)
StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文参考訳（メタデータ） (2023-08-31T17:59:33Z)
Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文参考訳（メタデータ） (2022-11-29T12:25:25Z)
Wiener Guided DIP for Unsupervised Blind Image Deconvolution [10.440495513371747]
ブラインド・デコンボリューション(英: Blind deconvolution)は、顕微鏡から天文学まで様々な分野で発生する不適切な問題である。ディープラーニングアーキテクチャは、教師なしのブラインドデコンボリューション最適化中にイメージ生成として機能する。本稿では,ワイナーデコンボリューションを用いて画像生成を最適化する手法を提案する。
論文参考訳（メタデータ） (2021-12-19T22:19:13Z)
LCA-Net: Light Convolutional Autoencoder for Image Dehazing [1.433758865948252]
画像のデハジングは、画像の視覚的魅力を改善するために、ヘイズによって生じる不整合ノイズを取り除くために重要な画像前処理タスクである。提案する汎用モデルは,大気モデルに依存しない非常に軽量な畳み込みエンコーダ・デコーダネットワークを用いている。このネットワークは、画像品質の面で最先端の手法に匹敵する、いくつかの標準データセットにおいて、より高速に最適なデハージング性能を達成する。
論文参考訳（メタデータ） (2020-08-24T11:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。