論文の概要: not-so-BigGAN: Generating High-Fidelity Images on Small Compute with
Wavelet-based Super-Resolution
- arxiv url: http://arxiv.org/abs/2009.04433v2
- Date: Sun, 25 Oct 2020 18:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 09:05:44.066293
- Title: not-so-BigGAN: Generating High-Fidelity Images on Small Compute with
Wavelet-based Super-Resolution
- Title(参考訳): Not-so-BigGAN: Wavelet-based Super-Resolution による小型コンピュータ上の高忠実画像の生成
- Authors: Seungwook Han, Akash Srivastava, Cole Hurwitz, Prasanna Sattigeri and
David D. Cox
- Abstract要約: Nsb-GANは、深層生成モデルのための簡易かつ費用対効果の2段階のトレーニングフレームワークである。
ウェーブレットに基づくダウンサンプリング法は、ピクセルベースの方法よりも多くの構造情報を保存する。
ImageNet 512x512では、10.59のFr'echet Inception Distance(FID)がベースラインのBigGANモデルを上回っている。
- 参考スコア(独自算出の注目度): 23.15896056344987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art models for high-resolution image generation, such as BigGAN
and VQVAE-2, require an incredible amount of compute resources and/or time (512
TPU-v3 cores) to train, putting them out of reach for the larger research
community. On the other hand, GAN-based image super-resolution models, such as
ESRGAN, can not only upscale images to high dimensions, but also are efficient
to train. In this paper, we present not-so-big-GAN (nsb-GAN), a simple yet
cost-effective two-step training framework for deep generative models (DGMs) of
high-dimensional natural images. First, we generate images in low-frequency
bands by training a sampler in the wavelet domain. Then, we super-resolve these
images from the wavelet domain back to the pixel-space with our novel wavelet
super-resolution decoder network. Wavelet-based down-sampling method preserves
more structural information than pixel-based methods, leading to significantly
better generative quality of the low-resolution sampler (e.g., 64x64). Since
the sampler and decoder can be trained in parallel and operate on much lower
dimensional spaces than end-to-end models, the training cost is substantially
reduced. On ImageNet 512x512, our model achieves a Fr\'echet Inception Distance
(FID) of 10.59 -- beating the baseline BigGAN model -- at half the compute (256
TPU-v3 cores).
- Abstract(参考訳): BigGANやVQVAE-2のような高解像度画像生成のための最先端のモデルは、トレーニングに膨大な量の計算リソースと時間(512 TPU-v3コア)を必要とするため、より大きな研究コミュニティには手に入らない。
一方、ESRGANのようなGANベースの画像超解像モデルでは、高次元へのスケールアップだけでなく、訓練の効率化も可能である。
本稿では,高次元自然画像の深部生成モデル(DGM)のための簡易かつ費用対効果の高い2段階トレーニングフレームワークであるNt-so-big-GAN(nsb-GAN)を提案する。
まず、ウェーブレット領域のサンプルをトレーニングすることで、低周波帯域の画像を生成する。
次に,提案するウェーブレット超解像デコーダネットワークを用いて,ウェーブレット領域から画素空間への超解像を行う。
ウェーブレットベースのダウンサンプリング法は、ピクセルベースの方法よりも構造情報を保存し、低解像度のサンプリング器(例えば64x64)の生成品質を著しく向上させる。
サンプルとデコーダは並列で訓練でき、エンドツーエンドモデルよりもはるかに低次元空間で動作するため、トレーニングコストは大幅に削減される。
ImageNet 512x512では、ベースラインのBigGANモデルを上回る10.59のFr\'echet Inception Distance(FID)を半分の計算(256 TPU-v3コア)で達成しています。
関連論文リスト
- Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。
具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。
我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文 参考訳(メタデータ) (2024-11-12T18:49:06Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models [41.67994377132345]
本稿では,アーキテクチャを高分解能なエンドツーエンドモデルに成長させるグレディアルゴリズムを提案する。
これにより、超高解像度のカスケードを必要とせずに高解像度の画像を生成できる単一ステージモデルを実現することができる。
この結果から,非カスケードモデルから最大8Bパラメータまで,さらなる正規化スキームを使わずにトレーニングできることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T02:12:39Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - High-Resolution Volumetric Reconstruction for Clothed Humans [27.900514732877827]
本稿では,1~6RGB画像のスパース集合から,衣服の人間を再構築する新しい手法を提案する。
提案手法は,P2S法の平均点通過精度を50%以上削減し,約2mmの精度を512容積分解能で達成する。
論文 参考訳(メタデータ) (2023-07-25T06:37:50Z) - A Three-Player GAN for Super-Resolution in Magnetic Resonance Imaging [8.254662744916171]
3次元ボリューム画像のSISR法はGAN(Generative Adversarial Networks)に基づいている
本稿では,GANフレームワークに基づく3次元SRの新しい手法を提案する。具体的には,GANトレーニングのバランスをとるために,インスタンスノイズを用いる。さらに,学習過程において相対論的GAN損失関数と更新特徴抽出器を用いる。
論文 参考訳(メタデータ) (2023-03-24T10:19:34Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。