論文の概要: Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.16759v1
- Date: Mon, 27 May 2024 02:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:25:57.198011
- Title: Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models
- Title(参考訳): グリーディ成長による高分解能画素拡散モデルの実現
- Authors: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang,
- Abstract要約: 本稿では,アーキテクチャを高分解能なエンドツーエンドモデルに成長させるグレディアルゴリズムを提案する。
これにより、超高解像度のカスケードを必要とせずに高解像度の画像を生成できる単一ステージモデルを実現することができる。
この結果から,非カスケードモデルから最大8Bパラメータまで,さらなる正規化スキームを使わずにトレーニングできることが示唆された。
- 参考スコア(独自算出の注目度): 41.67994377132345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.
- Abstract(参考訳): 本稿では,大規模かつ高解像度な画像の安定学習法として,画像拡散モデルを大規模に学習する方法という長年の課題に対処する。
カスケードされた超解像部品を必要とせずに。
重要な洞察は、コアコンポーネント、すなわちテキストと画像のアライメントに責任を持つコンポーネントを慎重に事前トレーニングすることに由来する。
高解像度レンダリング。
最初に、ダウン(アップ)サンプリングの enc(dec)oder を使わずに、a {\displaystyle {\it Shallow UNet} のスケーリングの利点を実証する。
ディープコアレイヤのスケーリングは、アライメント、オブジェクト構造、コンポジションを改善することが示されている。
このコアモデルに基づいて、アーキテクチャを高解像度のエンドツーエンドモデルに成長させ、事前学習された表現の完全性を維持し、トレーニングを安定化し、大規模な高解像度データセットの必要性を低減させる、グレディアルゴリズムを提案する。
これにより、超高解像度のカスケードを必要とせずに高解像度の画像を生成できる単一ステージモデルを実現することができる。
我々の主要な結果は、公開データセットに依存しており、さらなる正規化スキームなしで8Bパラメータまでの非カスケードモデルのトレーニングが可能であることを示しています。
内部データセットでトレーニングされた完全なパイプラインモデルであるVermeerは、1024x1024画像をカスケードなしで生成し、SDXLよりも44.0%対21.4%の人的評価器で好まれる。
関連論文リスト
- Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - PixelPyramids: Exact Inference Models from Lossless Image Pyramids [58.949070311990916]
Pixel-Pyramidsは、画像画素の関節分布を符号化するスケール特異的表現を用いたブロック自動回帰手法である。
様々な画像データセット、特に高解像度データに対する密度推定の最先端結果が得られる。
CelebA-HQ 1024 x 1024 では,フローベースモデルの並列化よりもサンプリング速度が優れているにもかかわらず,密度推定値がベースラインの 44% に向上することが観察された。
論文 参考訳(メタデータ) (2021-10-17T10:47:29Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。