論文の概要: Optimal Linear Subspace Search: Learning to Construct Fast and
High-Quality Schedulers for Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.14677v1
- Date: Wed, 24 May 2023 03:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:09:51.932629
- Title: Optimal Linear Subspace Search: Learning to Construct Fast and
High-Quality Schedulers for Diffusion Models
- Title(参考訳): 最適線形部分空間探索:拡散モデルのための高速かつ高品質なスケジューリングを学習する
- Authors: Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang and Weining Qian
- Abstract要約: 現在、拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。
最適線形部分空間探索(OLSS)と呼ばれる新しい手法を提案する。
OLSSは、非常に少ないステップで高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 18.026820439151404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, diffusion models have become the most popular and powerful
methods in the field of image synthesis, even rivaling human artists in
artistic creativity. However, the key issue currently limiting the application
of diffusion models is its extremely slow generation process. Although several
methods were proposed to speed up the generation process, there still exists a
trade-off between efficiency and quality. In this paper, we first provide a
detailed theoretical and empirical analysis of the generation process of the
diffusion models based on schedulers. We transform the designing problem of
schedulers into the determination of several parameters, and further transform
the accelerated generation process into an expansion process of the linear
subspace. Based on these analyses, we consequently propose a novel method
called Optimal Linear Subspace Search (OLSS), which accelerates the generation
process by searching for the optimal approximation process of the complete
generation process in the linear subspaces spanned by latent variables. OLSS is
able to generate high-quality images with a very small number of steps. To
demonstrate the effectiveness of our method, we conduct extensive comparative
experiments on open-source diffusion models. Experimental results show that
with a given number of steps, OLSS can significantly improve the quality of
generated images. Using an NVIDIA A100 GPU, we make it possible to generate a
high-quality image by Stable Diffusion within only one second without other
optimization techniques.
- Abstract(参考訳): 近年、拡散モデルは画像合成の分野で最も人気があり、強力な手法となり、芸術的創造性において人間の芸術家に匹敵するものさえある。
しかし、現在拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。
生成プロセスを高速化するためにいくつかの方法が提案されたが、効率と品質の間にはトレードオフがある。
本稿では,まず,スケジューラに基づく拡散モデル生成過程の詳細な理論的・経験的解析を行う。
我々はスケジューラの設計問題をいくつかのパラメータの決定に変換し、さらに加速された生成プロセスを線形部分空間の拡張プロセスに変換する。
そこで本研究では,線形部分空間に潜む線形部分空間における完全生成過程の最適近似過程を探索することにより生成過程を高速化する,最適線形部分空間探索 (OLSS) という新しい手法を提案する。
OLSSは、非常に少ないステップで高品質な画像を生成することができる。
本手法の有効性を実証するため,オープンソース拡散モデルを用いた広範囲比較実験を行った。
実験の結果,任意のステップ数でolsは生成画像の品質を大幅に向上できることがわかった。
NVIDIA A100 GPUを用いて,他の最適化手法を使わずに,安定拡散による高品質な画像を生成することができる。
関連論文リスト
- Accelerating Image Generation with Sub-path Linear Approximation Model [31.86029397069562]
拡散モデルは、画像、オーディオ、ビデオ生成タスクにおける技術の現状を進歩させた。
高品質な画像生成を維持しながら拡散モデルを高速化するサブパス線形近似モデル(SLAM)を提案する。
論文 参考訳(メタデータ) (2024-04-22T06:25:17Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fast Sampling via De-randomization for Discrete Diffusion Models [52.554915711265856]
本稿では, 離散拡散モデルの高速化に繋がる非ランダム化拡散過程を提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
自然言語生成および機械翻訳タスクの実験は,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Diffusion Sampling with Momentum for Mitigating Divergence Artifacts [10.181486597424486]
本研究では, 分散アーティファクトの潜在的な原因について検討し, 数値的手法の小さな安定性領域が主な原因である可能性が示唆された。
第1のテクニックは、最適化を改善するためのよく知られたテクニックであるヘビーボール運動量(HB)を、既存の拡散数値法に組み入れて安定性領域を広げることである。
第2のテクニックは、GHVB(Generalized Heavy Ball)と呼ばれ、精度とアーティファクトの抑制のトレードオフを提供する新しい高階法を構築する。
論文 参考訳(メタデータ) (2023-07-20T14:37:30Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。