論文の概要: HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in
Low-Resolution Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.17528v1
- Date: Wed, 29 Nov 2023 11:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:42:52.314214
- Title: HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in
Low-Resolution Trained Diffusion Models
- Title(参考訳): 低分解能訓練拡散モデルにおける高分解能創造性と効率の解放
- Authors: Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Zhenyuan Chen, Yao Tang, Yuhao
Chen, Wengang Cao, Jiajun Liang
- Abstract要約: HiDiffusionは、レゾリューション対応U-Net(RAU-Net)と修正シフトウィンドウマルチヘッド自己注意(MSW-MSA)で構成されるチューニング不要フレームワークである。
- 参考スコア(独自算出の注目度): 13.81838485017751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HiDiffusion, a tuning-free framework comprised of
Resolution-Aware U-Net (RAU-Net) and Modified Shifted Window Multi-head
Self-Attention (MSW-MSA) to enable pretrained large text-to-image diffusion
models to efficiently generate high-resolution images (e.g. 1024$\times$1024)
that surpass the training image resolution. Pretrained diffusion models
encounter unreasonable object duplication in generating images beyond the
training image resolution. We attribute it to the mismatch between the feature
map size of high-resolution images and the receptive field of U-Net's
convolution. To address this issue, we propose a simple yet scalable method
named RAU-Net. RAU-Net dynamically adjusts the feature map size to match the
convolution's receptive field in the deep block of U-Net. Another obstacle in
high-resolution synthesis is the slow inference speed of U-Net. Our
observations reveal that the global self-attention in the top block, which
exhibits locality, however, consumes the majority of computational resources.
To tackle this issue, we propose MSW-MSA. Unlike previous window attention
mechanisms, our method uses a much larger window size and dynamically shifts
windows to better accommodate diffusion models. Extensive experiments
demonstrate that our HiDiffusion can scale diffusion models to generate
1024$\times$1024, 2048$\times$2048, or even 4096$\times$4096 resolution images,
while simultaneously reducing inference time by 40\%-60\%, achieving
state-of-the-art performance on high-resolution image synthesis. The most
significant revelation of our work is that a pretrained diffusion model on
low-resolution images is scalable for high-resolution generation without
further tuning. We hope this revelation can provide insights for future
research on the scalability of diffusion models.
- Abstract(参考訳): 我々は,高解像度画像(例えば1024$\times$1024)を効率よく生成する,事前学習された大規模テキスト・画像拡散モデルを実現するために,解像度対応U-Net(RAU-Net)と改良シフトウィンドウ・マルチヘッド・セルフアタテンション(MSW-MSA)で構成されるチューニングフリーフレームワークであるHiDiffusionを紹介する。
事前訓練された拡散モデルは、トレーニング画像解像度を超える画像を生成する際に、不合理なオブジェクト重複に遭遇する。
我々は,高解像度画像の特徴マップサイズとU-Netの畳み込みの受容場とのミスマッチに起因する。
この問題に対処するため,RAU-Net というシンプルな手法を提案する。
RAU-Netは、U-Netの深いブロックにおける畳み込みの受容場と一致するように、機能マップサイズを動的に調整する。
高分解能合成のもう一つの障害は、u-netの遅い推論速度である。
しかしながら, 局所性を示すトップブロックにおけるグローバルな自己注意が, 計算資源の大部分を消費していることが明らかとなった。
そこで我々はMSW-MSAを提案する。
従来のウィンドウアテンション機構とは異なり,より大きなウィンドウサイズを用い,拡散モデルに適応するために動的にウィンドウをシフトさせる。
大規模な実験により、我々のHiDiffusionは拡散モデルをスケールして1024$\times$1024, 2048$\times$2048, さらに4096$\times$4096の解像度画像を生成することができ、同時に推論時間を40\%-60\%削減し、高解像度画像合成における最先端の性能を達成することができる。
我々の研究の最も重要な発表は、低解像度画像上の事前学習拡散モデルが、さらなるチューニングなしに高解像度生成にスケーラブルであることである。
我々は、この発見が拡散モデルのスケーラビリティに関する将来の研究に洞察をもたらすことを望んでいる。
関連論文リスト
- Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Matryoshka Diffusion Models [41.05745850547664]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - High-Resolution Image Editing via Multi-Stage Blended Diffusion [3.834509400202395]
本稿では,事前学習した低分解能拡散モデルを用いてメガピクセル範囲の画像を編集する手法を提案する。
我々はまず,Blended Diffusionを用いて低解像度で画像を編集し,その後,高解像度モデルとBlended Diffusionを用いて複数のステージでアップスケールする。
論文 参考訳(メタデータ) (2022-10-24T06:07:35Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。