論文の概要: Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation
- arxiv url: http://arxiv.org/abs/2402.10491v1
- Date: Fri, 16 Feb 2024 07:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:03:58.844327
- Title: Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation
- Title(参考訳): 安価スケーリング:高分解能適応のための自己カスケード拡散モデル
- Authors: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun,
Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan,
Bihan Wen
- Abstract要約: 本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
- 参考スコア(独自算出の注目度): 112.08287900261898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have proven to be highly effective in image and video
generation; however, they still face composition challenges when generating
images of varying sizes due to single-scale training data. Adapting large
pre-trained diffusion models for higher resolution demands substantial
computational and optimization resources, yet achieving a generation capability
comparable to low-resolution models remains elusive. This paper proposes a
novel self-cascade diffusion model that leverages the rich knowledge gained
from a well-trained low-resolution model for rapid adaptation to
higher-resolution image and video generation, employing either tuning-free or
cheap upsampler tuning paradigms. Integrating a sequence of multi-scale
upsampler modules, the self-cascade diffusion model can efficiently adapt to a
higher resolution, preserving the original composition and generation
capabilities. We further propose a pivot-guided noise re-schedule strategy to
speed up the inference process and improve local structural details. Compared
to full fine-tuning, our approach achieves a 5X training speed-up and requires
only an additional 0.002M tuning parameters. Extensive experiments demonstrate
that our approach can quickly adapt to higher resolution image and video
synthesis by fine-tuning for just 10k steps, with virtually no additional
inference time.
- Abstract(参考訳): 拡散モデルは画像および映像生成に非常に有効であることが証明されているが、単一スケールのトレーニングデータによって様々なサイズの画像を生成する場合、構成上の課題に直面している。
大規模な事前学習拡散モデルを高解像度に適応させるには、かなりの計算資源と最適化資源が必要であるが、低解像度モデルに匹敵する生成能力を達成することは、いまだ明白である。
本稿では,高解像度画像やビデオ生成への高速適応のために,高度に訓練された低解像度モデルから得られる豊富な知識を活用し,チューニング不要あるいは安価なアップサンプラーチューニングパラダイムを利用する,新しい自己カスケード拡散モデルを提案する。
マルチスケールアップサンプラーモジュールのシーケンスを統合することで、自己カスケード拡散モデルは、元の合成と生成能力を保ちながら、高分解能に効率的に適応することができる。
さらに,推定過程の高速化と局所構造改善のためのピボット誘導型雑音再スケジュール手法を提案する。
完全微調整と比較して,本手法は5倍のトレーニング高速化を実現し,さらに0.002Mのチューニングパラメータを必要とする。
広汎な実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることが示された。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Matryoshka Diffusion Models [41.05745850547664]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。