論文の概要: HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in
Low-Resolution Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.17528v1
- Date: Wed, 29 Nov 2023 11:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:42:52.314214
- Title: HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in
Low-Resolution Trained Diffusion Models
- Title(参考訳): 低分解能訓練拡散モデルにおける高分解能創造性と効率の解放
- Authors: Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Zhenyuan Chen, Yao Tang, Yuhao
Chen, Wengang Cao, Jiajun Liang
- Abstract要約: HiDiffusionは、レゾリューション対応U-Net(RAU-Net)と修正シフトウィンドウマルチヘッド自己注意(MSW-MSA)で構成されるチューニング不要フレームワークである。
- 参考スコア(独自算出の注目度): 13.81838485017751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HiDiffusion, a tuning-free framework comprised of
Resolution-Aware U-Net (RAU-Net) and Modified Shifted Window Multi-head
Self-Attention (MSW-MSA) to enable pretrained large text-to-image diffusion
models to efficiently generate high-resolution images (e.g. 1024$\times$1024)
that surpass the training image resolution. Pretrained diffusion models
encounter unreasonable object duplication in generating images beyond the
training image resolution. We attribute it to the mismatch between the feature
map size of high-resolution images and the receptive field of U-Net's
convolution. To address this issue, we propose a simple yet scalable method
named RAU-Net. RAU-Net dynamically adjusts the feature map size to match the
convolution's receptive field in the deep block of U-Net. Another obstacle in
high-resolution synthesis is the slow inference speed of U-Net. Our
observations reveal that the global self-attention in the top block, which
exhibits locality, however, consumes the majority of computational resources.
To tackle this issue, we propose MSW-MSA. Unlike previous window attention
mechanisms, our method uses a much larger window size and dynamically shifts
windows to better accommodate diffusion models. Extensive experiments
demonstrate that our HiDiffusion can scale diffusion models to generate
1024$\times$1024, 2048$\times$2048, or even 4096$\times$4096 resolution images,
while simultaneously reducing inference time by 40\%-60\%, achieving
state-of-the-art performance on high-resolution image synthesis. The most
significant revelation of our work is that a pretrained diffusion model on
low-resolution images is scalable for high-resolution generation without
further tuning. We hope this revelation can provide insights for future
research on the scalability of diffusion models.
- Abstract(参考訳): 我々は,高解像度画像(例えば1024$\times$1024)を効率よく生成する,事前学習された大規模テキスト・画像拡散モデルを実現するために,解像度対応U-Net(RAU-Net)と改良シフトウィンドウ・マルチヘッド・セルフアタテンション(MSW-MSA)で構成されるチューニングフリーフレームワークであるHiDiffusionを紹介する。
事前訓練された拡散モデルは、トレーニング画像解像度を超える画像を生成する際に、不合理なオブジェクト重複に遭遇する。
我々は,高解像度画像の特徴マップサイズとU-Netの畳み込みの受容場とのミスマッチに起因する。
この問題に対処するため,RAU-Net というシンプルな手法を提案する。
RAU-Netは、U-Netの深いブロックにおける畳み込みの受容場と一致するように、機能マップサイズを動的に調整する。
高分解能合成のもう一つの障害は、u-netの遅い推論速度である。
しかしながら, 局所性を示すトップブロックにおけるグローバルな自己注意が, 計算資源の大部分を消費していることが明らかとなった。
そこで我々はMSW-MSAを提案する。
従来のウィンドウアテンション機構とは異なり,より大きなウィンドウサイズを用い,拡散モデルに適応するために動的にウィンドウをシフトさせる。
大規模な実験により、我々のHiDiffusionは拡散モデルをスケールして1024$\times$1024, 2048$\times$2048, さらに4096$\times$4096の解像度画像を生成することができ、同時に推論時間を40\%-60\%削減し、高解像度画像合成における最先端の性能を達成することができる。
我々の研究の最も重要な発表は、低解像度画像上の事前学習拡散モデルが、さらなるチューニングなしに高解像度生成にスケーラブルであることである。
我々は、この発見が拡散モデルのスケーラビリティに関する将来の研究に洞察をもたらすことを望んでいる。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z) - High-Resolution Image Editing via Multi-Stage Blended Diffusion [3.834509400202395]
本稿では,事前学習した低分解能拡散モデルを用いてメガピクセル範囲の画像を編集する手法を提案する。
我々はまず,Blended Diffusionを用いて低解像度で画像を編集し,その後,高解像度モデルとBlended Diffusionを用いて複数のステージでアップスケールする。
論文 参考訳(メタデータ) (2022-10-24T06:07:35Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。