論文の概要: FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling
- arxiv url: http://arxiv.org/abs/2410.18410v1
- Date: Thu, 24 Oct 2024 03:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:08.394527
- Title: FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling
- Title(参考訳): FreCaS:周波数対応カスケードサンプリングによる高分解能高分解能画像生成
- Authors: Zhengqiang Zhang, Ruihuang Li, Lei Zhang,
- Abstract要約: FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 13.275724439963188
- License:
- Abstract: While image generation with diffusion models has achieved a great success, generating images of higher resolution than the training size remains a challenging task due to the high computational cost. Current methods typically perform the entire sampling process at full resolution and process all frequency components simultaneously, contradicting with the inherent coarse-to-fine nature of latent diffusion models and wasting computations on processing premature high-frequency details at early diffusion stages. To address this issue, we introduce an efficient $\textbf{Fre}$quency-aware $\textbf{Ca}$scaded $\textbf{S}$ampling framework, $\textbf{FreCaS}$ in short, for higher-resolution image generation. FreCaS decomposes the sampling process into cascaded stages with gradually increased resolutions, progressively expanding frequency bands and refining the corresponding details. We propose an innovative frequency-aware classifier-free guidance (FA-CFG) strategy to assign different guidance strengths for different frequency components, directing the diffusion model to add new details in the expanded frequency domain of each stage. Additionally, we fuse the cross-attention maps of previous and current stages to avoid synthesizing unfaithful layouts. Experiments demonstrate that FreCaS significantly outperforms state-of-the-art methods in image quality and generation speed. In particular, FreCaS is about 2.86$\times$ and 6.07$\times$ faster than ScaleCrafter and DemoFusion in generating a 2048$\times$2048 image using a pre-trained SDXL model and achieves an FID$_b$ improvement of 11.6 and 3.7, respectively. FreCaS can be easily extended to more complex models such as SD3. The source code of FreCaS can be found at $\href{\text{https://github.com/xtudbxk/FreCaS}}{https://github.com/xtudbxk/FreCaS}$.
- Abstract(参考訳): 拡散モデルによる画像生成は大きな成功を収めているが、高い計算コストのため、トレーニングサイズよりも高解像度の画像を生成することは難しい課題である。
現在の方法では、サンプリングプロセス全体を全解像度で実行し、全ての周波数成分を同時に処理し、潜伏拡散モデルの本質的な粗大な性質と矛盾し、初期の拡散段階で早めの高周波の詳細を処理する計算を無駄にする。
この問題に対処するため、高解像度画像生成のための効率的な$\textbf{Fre}$quency-aware $\textbf{Ca}$scaded $\textbf{S}$ampling framework, $\textbf{FreCaS}$を紹介した。
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能を徐々に増加させ、周波数帯域を徐々に拡大し、対応する詳細を精製する。
本研究では,異なる周波数成分に対して異なる誘導強度を割り当てるFA-CFG戦略を提案し,拡散モデルを用いて各ステージの周波数領域に新たな詳細を付加する。
さらに、前段階と現在の段階の横断的アテンションマップを融合させて、不誠実なレイアウトの合成を避ける。
実験により、FreCaSは画像の品質と生成速度において最先端の手法を大幅に上回っていることが示された。
特にFreCaSは約2.86$\times$と6.07$\times$で、事前訓練されたSDXLモデルを使用して2048$\times$2048画像を生成し、それぞれ11.6と3.7のFID$_b$改善を実現している。
FreCaSはSD3のようなより複雑なモデルに容易に拡張できる。
FreCaSのソースコードは$\href{\text{https://github.com/xtudbxk/FreCaS}}{https://github.com/xtudbxk/FreCaS}$で見ることができる。
関連論文リスト
- Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [7.29314801047906]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
FDDiffは高忠実度超解像率で先行生成法より優れていた。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - On the Importance of Noise Scheduling for Diffusion Models [8.360383061862844]
拡散生成モデルにおけるノイズスケジューリング手法の効果について検討する。
この簡単なレシピは、ImageNet上の高解像度画像に対して、最先端のピクセルベースの拡散モデルを生成する。
論文 参考訳(メタデータ) (2023-01-26T07:37:22Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z) - Accelerating Score-based Generative Models for High-Resolution Image
Synthesis [42.076244561541706]
スコアベース生成モデル(SGM)は、最近、将来性のある生成モデルのクラスとして登場した。
本研究では,SGMによる高分解能発生の加速について考察する。
本稿では,空間および周波数領域の構造的先行性を活用することによって,TDAS(Target Distribution Smpling Aware)手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:41:14Z) - Unsupervised Single Image Super-resolution Under Complex Noise [60.566471567837574]
本稿では,一般のSISRタスクを未知の劣化で扱うためのモデルベースunsupervised SISR法を提案する。
提案手法は, より小さなモデル (0.34M vs. 2.40M) だけでなく, より高速な技術 (SotA) 法 (約1dB PSNR) の現況を明らかに超えることができる。
論文 参考訳(メタデータ) (2021-07-02T11:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。