論文の概要: MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning
- arxiv url: http://arxiv.org/abs/2408.11001v3
- Date: Mon, 18 Nov 2024 06:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:10.858272
- Title: MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning
- Title(参考訳): MegaFusion: さらなるチューニングを伴わない高解像度画像生成に向けた拡散モデルの拡張
- Authors: Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang,
- Abstract要約: MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。
我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。
拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
- 参考スコア(独自算出の注目度): 38.560064789022704
- License:
- Abstract: Diffusion models have emerged as frontrunners in text-to-image generation, but their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic deviations and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image models towards efficient higher-resolution generation without additional fine-tuning or adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において最前線として現れてきたが、トレーニング中の画像解像度の固定は、セマンティックな偏差やオブジェクトの複製といった高解像度画像生成の課題につながることが多い。
本稿では,既存の拡散型テキスト・画像モデルを拡張したMegaFusionを提案する。
具体的には、様々な解像度でデノナイズ処理をブリッジするために、革新的なトランケートとリレー戦略を採用し、粗大な方法で高解像度の画像生成を可能にする。
さらに、拡張畳み込みとノイズ再スケジューリングを統合することで、モデルの事前値をより高分解能に適応させる。
MegaFusionの汎用性と有効性は、他の微分モデルとともに、潜在空間と画素空間の拡散モデルの両方に普遍的に適用することができる。
大規模な実験により、メガフュージョンは既存のモデルでメガピクセルの画像と様々なアスペクト比を生成する能力を大幅に向上させ、元の計算コストの約40%しか必要としないことを確認した。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。