論文の概要: Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them
on Images
- arxiv url: http://arxiv.org/abs/2011.10650v2
- Date: Tue, 16 Mar 2021 18:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:32:40.707143
- Title: Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them
on Images
- Title(参考訳): 非常に深いVAEは自己回帰モデルを一般化し、画像上でのテーマより優れている
- Authors: Rewon Child
- Abstract要約: 我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。
理論上、VAEは自己回帰モデルを表現することができ、もし存在すればより高速でより良いモデルを作ることができる。
- 参考スコア(独自算出の注目度): 9.667538864515285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a hierarchical VAE that, for the first time, generates samples
quickly while outperforming the PixelCNN in log-likelihood on all natural image
benchmarks. We begin by observing that, in theory, VAEs can actually represent
autoregressive models, as well as faster, better models if they exist, when
made sufficiently deep. Despite this, autoregressive models have historically
outperformed VAEs in log-likelihood. We test if insufficient depth explains why
by scaling a VAE to greater stochastic depth than previously explored and
evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN,
these very deep VAEs achieve higher likelihoods, use fewer parameters, generate
samples thousands of times faster, and are more easily applied to
high-resolution images. Qualitative studies suggest this is because the VAE
learns efficient hierarchical visual representations. We release our source
code and models at https://github.com/openai/vdvae.
- Abstract(参考訳): 我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。
理論上は、vaesは自己回帰モデルだけでなく、十分に深く作られた場合に、より速く、より優れたモデルを表現することができる。
それにもかかわらず、自己回帰モデルは歴史的にログライクなVAEよりも優れている。
CIFAR-10, ImageNet, FFHQなどよりも, VAEをより確率的な深さにスケーリングすることで, 深度が不十分であるかどうかを検証する。
pixelcnnと比較して、これらの非常に深いvaesは高い可能性を達成し、パラメータを少なくし、数千倍の速度でサンプルを生成し、高解像度画像に容易に適用できる。
定性的研究は、VAEが効率的な階層的な視覚表現を学習していることを示唆している。
ソースコードとモデルはhttps://github.com/openai/vdvaeでリリースします。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Revisiting Sparse Convolutional Model for Visual Recognition [40.726494290922204]
本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
論文 参考訳(メタデータ) (2022-10-24T04:29:21Z) - Optimizing Hierarchical Image VAEs for Sample Quality [0.0]
階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
論文 参考訳(メタデータ) (2022-10-18T23:10:58Z) - Efficient-VDVAE: Less is more [0.0]
我々は、超深度BAEを2.6倍の速度で収束させる修正を提示する。
我々のモデルは、現在の最先端モデルよりも、同等またはより優れた負のログライクチュア性能を達成する。
我々は、階層型VAEの潜在空間次元の約3%が、画像情報のほとんどを符号化するのに十分なものであることを実証的に実証した。
論文 参考訳(メタデータ) (2022-03-25T16:29:46Z) - Exponentially Tilted Gaussian Prior for Variational Autoencoder [3.52359746858894]
近年の研究では, この課題に対して確率的生成モデルが不十分であることが示されている。
変分オートエンコーダ(VAE)の指数傾斜ガウス事前分布を提案する。
本モデルでは,標準ガウスVAEよりクオリティの高い画像サンプルが得られた。
論文 参考訳(メタデータ) (2021-11-30T18:28:19Z) - NVAE: A Deep Hierarchical Variational Autoencoder [102.29977384039805]
本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
論文 参考訳(メタデータ) (2020-07-08T04:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。