論文の概要: Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion
- arxiv url: http://arxiv.org/abs/2410.19324v2
- Date: Sat, 22 Mar 2025 19:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:46.575052
- Title: Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion
- Title(参考訳): Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with ピクセル空間拡散
- Authors: Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans,
- Abstract要約: 画素空間モデルは、品質と効率の両方において、潜在モデルと非常に競合することを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
- 参考スコア(独自算出の注目度): 34.70370851239368
- License:
- Abstract: Latent diffusion models have become the popular choice for scaling up diffusion models for high resolution image synthesis. Compared to pixel-space models that are trained end-to-end, latent models are perceived to be more efficient and to produce higher image quality at high resolution. Here we challenge these notions, and show that pixel-space models can be very competitive to latent models both in quality and efficiency, achieving 1.5 FID on ImageNet512 and new SOTA results on ImageNet128, ImageNet256 and Kinetics600. We present a simple recipe for scaling end-to-end pixel-space diffusion models to high resolutions. 1: Use the sigmoid loss-weighting (Kingma & Gao, 2023) with our prescribed hyper-parameters. 2: Use our simplified memory-efficient architecture with fewer skip-connections. 3: Scale the model to favor processing the image at a high resolution with fewer parameters, rather than using more parameters at a lower resolution. Combining these with guidance intervals, we obtain a family of pixel-space diffusion models we call Simpler Diffusion (SiD2).
- Abstract(参考訳): 遅延拡散モデルは高分解能画像合成のための拡散モデルをスケールアップするための一般的な選択肢となっている。
エンド・ツー・エンドで訓練されたピクセル・スペース・モデルと比較して、潜在モデルはより効率的であり、高解像度で高画質が得られると認識される。
ここでは,画像Net128, ImageNet256, Kinetics600において, ImageNet512上で1.5 FID, 新たなSOTA結果を達成し, 画質と効率の両面で, 画素空間モデルは潜在モデルと非常に競合することを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
1: Sigmoid loss-weighting (Kingma & Gao, 2023) を用いた。
2: スキップ接続を少なくして、単純化されたメモリ効率アーキテクチャを使用する。
3: 低解像度でより多くのパラメータを使用するよりも、少ないパラメータで高解像度で画像を処理することを好むようにモデルをスケールする。
これらを誘導間隔と組み合わせることで、我々はSimpler Diffusion (SiD2) と呼ぶ画素空間拡散モデルの族を得る。
関連論文リスト
- SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Zoomed In, Diffused Out: Towards Local Degradation-Aware Multi-Diffusion for Extreme Image Super-Resolution [8.69908615905782]
大規模で事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルが画像生成タスクで大きな人気を集めている。
既存のほとんどのT2I拡散モデルは解像度限界512x512で訓練されており、この解像度を超えるスケーリングは画像超解法(SR)にとって未解決だが必要な課題である。
本稿では,2K,4K,さらに8K画像も追加トレーニングなしで生成できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-18T21:32:49Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Simple diffusion: End-to-end diffusion for high resolution images [27.47227724865238]
本稿では,高分解能画像の拡散を極力シンプルに保ちながら,デノナイズ拡散を改善することを目的とする。
4つの主な発見は,1)高分解能画像に対してノイズスケジュールを調整すること,2)アーキテクチャの特定の部分のみをスケールすること,3)アーキテクチャの特定の場所でドロップアウトを追加すること,4)高分解能特徴マップを避けるためのダウンサンプリングは効果的な戦略である。
論文 参考訳(メタデータ) (2023-01-26T13:35:02Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z) - not-so-BigGAN: Generating High-Fidelity Images on Small Compute with
Wavelet-based Super-Resolution [23.15896056344987]
Nsb-GANは、深層生成モデルのための簡易かつ費用対効果の2段階のトレーニングフレームワークである。
ウェーブレットに基づくダウンサンプリング法は、ピクセルベースの方法よりも多くの構造情報を保存する。
ImageNet 512x512では、10.59のFr'echet Inception Distance(FID)がベースラインのBigGANモデルを上回っている。
論文 参考訳(メタデータ) (2020-09-09T17:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。