Fugu-MT 論文翻訳(概要): Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models

論文の概要: Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models

arxiv url: http://arxiv.org/abs/2305.14677v1
Date: Wed, 24 May 2023 03:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 20:09:51.932629
Title: Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models
Title（参考訳）: 最適線形部分空間探索:拡散モデルのための高速かつ高品質なスケジューリングを学習する
Authors: Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang and Weining Qian
Abstract要約: 現在、拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。最適線形部分空間探索(OLSS)と呼ばれる新しい手法を提案する。 OLSSは、非常に少ないステップで高品質な画像を生成することができる。
参考スコア（独自算出の注目度）: 18.026820439151404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, diffusion models have become the most popular and powerful methods in the field of image synthesis, even rivaling human artists in artistic creativity. However, the key issue currently limiting the application of diffusion models is its extremely slow generation process. Although several methods were proposed to speed up the generation process, there still exists a trade-off between efficiency and quality. In this paper, we first provide a detailed theoretical and empirical analysis of the generation process of the diffusion models based on schedulers. We transform the designing problem of schedulers into the determination of several parameters, and further transform the accelerated generation process into an expansion process of the linear subspace. Based on these analyses, we consequently propose a novel method called Optimal Linear Subspace Search (OLSS), which accelerates the generation process by searching for the optimal approximation process of the complete generation process in the linear subspaces spanned by latent variables. OLSS is able to generate high-quality images with a very small number of steps. To demonstrate the effectiveness of our method, we conduct extensive comparative experiments on open-source diffusion models. Experimental results show that with a given number of steps, OLSS can significantly improve the quality of generated images. Using an NVIDIA A100 GPU, we make it possible to generate a high-quality image by Stable Diffusion within only one second without other optimization techniques.
Abstract（参考訳）: 近年、拡散モデルは画像合成の分野で最も人気があり、強力な手法となり、芸術的創造性において人間の芸術家に匹敵するものさえある。しかし、現在拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。生成プロセスを高速化するためにいくつかの方法が提案されたが、効率と品質の間にはトレードオフがある。本稿では,まず,スケジューラに基づく拡散モデル生成過程の詳細な理論的・経験的解析を行う。我々はスケジューラの設計問題をいくつかのパラメータの決定に変換し、さらに加速された生成プロセスを線形部分空間の拡張プロセスに変換する。そこで本研究では,線形部分空間に潜む線形部分空間における完全生成過程の最適近似過程を探索することにより生成過程を高速化する,最適線形部分空間探索 (OLSS) という新しい手法を提案する。 OLSSは、非常に少ないステップで高品質な画像を生成することができる。本手法の有効性を実証するため,オープンソース拡散モデルを用いた広範囲比較実験を行った。実験の結果,任意のステップ数でolsは生成画像の品質を大幅に向上できることがわかった。 NVIDIA A100 GPUを用いて,他の最適化手法を使わずに,安定拡散による高品質な画像を生成することができる。

関連論文リスト

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models [32.70019265781621]
テキストと画像の拡散モデルは前例のない成功を収めたが、限られたサンプリング予算の下で高品質な画像を作成するのに苦戦している。本研究では,サンプリング軌道に沿った均一な幾何変動を確実にするスケジューリング戦略として,一定全回転スケジュール(TORS)を提案する。 TORSは以前のトレーニング不要加速法より優れており、Flux.1-DevとStable Diffusion 3.5の10段のサンプリングステップで高品質な画像を生成する。
論文参考訳（メタデータ） (2026-02-28T18:09:44Z)
Saliency Guided Optimization of Diffusion Latents [9.237421522280819]
テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。本稿では、このアライメント課題を効果的かつ効率的に解決するために、潜伏者の衛生指導最適化(SGOOL)を提案する。
論文参考訳（メタデータ） (2024-10-14T08:12:42Z)
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。 PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。 PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T07:05:16Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models using Stepwise Spectral Analysis [22.02829139522153]
拡散過程の画像スペクトル解析に基づく効率的な時間ステップサンプリング法を提案する。従来の均一分布に基づく時間ステップサンプリングの代わりに,ベータ分布のようなサンプリング手法を導入する。我々の仮説では、あるステップは画像の内容に大きな変化を示すが、他のステップは最小限に寄与する。
論文参考訳（メタデータ） (2024-07-16T20:53:06Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。 AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文参考訳（メタデータ） (2023-11-24T11:20:38Z)
AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-09-19T08:57:24Z)
Diffusion Sampling with Momentum for Mitigating Divergence Artifacts [10.181486597424486]
本研究では, 分散アーティファクトの潜在的な原因について検討し, 数値的手法の小さな安定性領域が主な原因である可能性が示唆された。第1のテクニックは、最適化を改善するためのよく知られたテクニックであるヘビーボール運動量(HB)を、既存の拡散数値法に組み入れて安定性領域を広げることである。第2のテクニックは、GHVB(Generalized Heavy Ball)と呼ばれ、精度とアーティファクトの抑制のトレードオフを提供する新しい高階法を構築する。
論文参考訳（メタデータ） (2023-07-20T14:37:30Z)
Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。 ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文参考訳（メタデータ） (2023-05-30T14:28:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。