論文の概要: ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.07702v1
- Date: Wed, 11 Oct 2023 17:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:16:09.010427
- Title: ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models
- Title(参考訳): ScaleCrafter: 拡散モデルによるチューニング不要な高解像度ビジュアル生成
- Authors: Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia,
Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, Ying Shan
- Abstract要約: 本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
- 参考スコア(独自算出の注目度): 126.35334860896373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the capability of generating images from
pre-trained diffusion models at much higher resolutions than the training image
sizes. In addition, the generated images should have arbitrary image aspect
ratios. When generating images directly at a higher resolution, 1024 x 1024,
with the pre-trained Stable Diffusion using training images of resolution 512 x
512, we observe persistent problems of object repetition and unreasonable
object structures. Existing works for higher-resolution generation, such as
attention-based and joint-diffusion approaches, cannot well address these
issues. As a new perspective, we examine the structural components of the U-Net
in diffusion models and identify the crucial cause as the limited perception
field of convolutional kernels. Based on this key observation, we propose a
simple yet effective re-dilation that can dynamically adjust the convolutional
perception field during inference. We further propose the dispersed convolution
and noise-damped classifier-free guidance, which can enable
ultra-high-resolution image generation (e.g., 4096 x 4096). Notably, our
approach does not require any training or optimization. Extensive experiments
demonstrate that our approach can address the repetition issue well and achieve
state-of-the-art performance on higher-resolution image synthesis, especially
in texture details. Our work also suggests that a pre-trained diffusion model
trained on low-resolution images can be directly used for high-resolution
visual generation without further tuning, which may provide insights for future
research on ultra-high-resolution image and video synthesis.
- Abstract(参考訳): 本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高い解像度で画像を生成する能力について検討する。
さらに、生成された画像は任意の画像アスペクト比を持つべきである。
解像度512×512のトレーニング画像を用いて,高解像度の1024×1024の画像を直接生成する場合,物体の繰り返しや不適切な物体構造の持続的問題を観察する。
注意ベースや共同拡散アプローチのような高分解能生成のための既存の研究は、これらの問題にうまく対処できない。
新しい視点として、拡散モデルにおけるU-Netの構造成分を調べ、その重要な原因を畳み込みカーネルの限られた知覚場として同定する。
このキーとなる観察に基づいて,推論中に畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
さらに,超高解像度画像生成(4096×4096)が可能な分散畳み込みと雑音減衰型分類器フリーガイダンスを提案する。
特に、私たちのアプローチではトレーニングや最適化は不要です。
広汎な実験により,本手法は繰り返し問題にうまく対処でき,特にテクスチャ細部において高分解能画像合成における最先端性能を実現することができることが示された。
我々の研究は、低解像度画像に基づいてトレーニングされた事前学習拡散モデルが、さらなるチューニングを伴わずに、高解像度画像生成に直接使用できることを示唆している。
関連論文リスト
- DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Image Neural Field Diffusion Models [46.781775067944395]
本稿では,画像ニューラルネットワーク上での拡散モデルのトレーニングにより連続画像の分布を学習することを提案する。
画像ニューラル場拡散モデルは、混合分解能画像データセットを用いて訓練でき、固定分解能拡散モデルよりも優れており、異なるスケールで適用された条件で効率よく逆問題を解くことができることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:24:02Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。