論文の概要: Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion
- arxiv url: http://arxiv.org/abs/2410.19324v1
- Date: Fri, 25 Oct 2024 06:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:11.087056
- Title: Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion
- Title(参考訳): Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with ピクセル空間拡散
- Authors: Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans,
- Abstract要約: 画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
- 参考スコア(独自算出の注目度): 34.70370851239368
- License:
- Abstract: Latent diffusion models have become the popular choice for scaling up diffusion models for high resolution image synthesis. Compared to pixel-space models that are trained end-to-end, latent models are perceived to be more efficient and to produce higher image quality at high resolution. Here we challenge these notions, and show that pixel-space models can in fact be very competitive to latent approaches both in quality and efficiency, achieving 1.5 FID on ImageNet512 and new SOTA results on ImageNet128 and ImageNet256. We present a simple recipe for scaling end-to-end pixel-space diffusion models to high resolutions. 1: Use the sigmoid loss (Kingma & Gao, 2023) with our prescribed hyper-parameters. 2: Use our simplified memory-efficient architecture with fewer skip-connections. 3: Scale the model to favor processing the image at high resolution with fewer parameters, rather than using more parameters but at a lower resolution. When combining these three steps with recently proposed tricks like guidance intervals, we obtain a family of pixel-space diffusion models we call Simple Diffusion v2 (SiD2).
- Abstract(参考訳): 遅延拡散モデルは高分解能画像合成のための拡散モデルをスケールアップするための一般的な選択肢となっている。
エンド・ツー・エンドで訓練されたピクセル・スペース・モデルと比較して、潜在モデルはより効率的であり、高解像度で高画質が得られると認識される。
ここでは、これらの概念に挑戦し、ピクセル空間モデルが、品質と効率の両面で潜在的なアプローチと非常に競合し、ImageNet512では1.5 FID、ImageNet128とImageNet256では新たなSOTA結果が得られることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
1: Sigmoid loss (Kingma & Gao, 2023) を用いて検討した。
2: スキップ接続を少なくして、単純化されたメモリ効率アーキテクチャを使用する。
3: より多くのパラメータを使用するのではなく、低い解像度で、より少ないパラメータで、高解像度で画像を処理することを好んで、モデルをスケールする。
これら3つのステップをガイダンス間隔のような最近提案されたトリックと組み合わせると、Simple Diffusion v2 (SiD2) と呼ばれる画素空間拡散モデルの族が得られる。
関連論文リスト
- Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Simple diffusion: End-to-end diffusion for high resolution images [27.47227724865238]
本稿では,高分解能画像の拡散を極力シンプルに保ちながら,デノナイズ拡散を改善することを目的とする。
4つの主な発見は,1)高分解能画像に対してノイズスケジュールを調整すること,2)アーキテクチャの特定の部分のみをスケールすること,3)アーキテクチャの特定の場所でドロップアウトを追加すること,4)高分解能特徴マップを避けるためのダウンサンプリングは効果的な戦略である。
論文 参考訳(メタデータ) (2023-01-26T13:35:02Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z) - not-so-BigGAN: Generating High-Fidelity Images on Small Compute with
Wavelet-based Super-Resolution [23.15896056344987]
Nsb-GANは、深層生成モデルのための簡易かつ費用対効果の2段階のトレーニングフレームワークである。
ウェーブレットに基づくダウンサンプリング法は、ピクセルベースの方法よりも多くの構造情報を保存する。
ImageNet 512x512では、10.59のFr'echet Inception Distance(FID)がベースラインのBigGANモデルを上回っている。
論文 参考訳(メタデータ) (2020-09-09T17:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。