論文の概要: FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2403.12963v1
- Date: Tue, 19 Mar 2024 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:04:26.664719
- Title: FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
- Title(参考訳): FouriScale: 学習不要高分解能画像合成における周波数視点
- Authors: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li,
- Abstract要約: 本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
- 参考スコア(独自算出の注目度): 48.9652334528436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.
- Abstract(参考訳): 本研究では,事前学習した拡散モデルから高分解能画像を生成し,繰り返しパターンや構造歪みなどの永続的な課題に対処する。
この問題に対処するために、周波数領域分析の観点から、FouriScaleの革新的でトレーニング不要なアプローチを導入する。
我々は, 従来の拡散モデルにおける畳み込み層を, 低域演算とともに拡張技法を取り入れて置き換え, それぞれが分解能における構造整合性とスケール整合性を達成することを目的としている。
そこで本手法では, 様々なアスペクト比のテキスト・画像生成を柔軟に行うことができる。
FouriScaleをガイダンスとして使用することにより、生成した画像の構造的整合性と忠実度をバランスさせ、任意のサイズ、高解像度、高品質な生成の驚くべき能力を達成する。
本手法は,そのシンプルさと互換性により,超高解像度画像の合成における今後の探索に有用な知見を提供することができる。
コードはhttps://github.com/LeonHLJ/FouriScaleでリリースされる。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。