Fugu-MT 論文翻訳(概要): SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

論文の概要: SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

arxiv url: http://arxiv.org/abs/2403.16627v2
Date: Wed, 17 Apr 2024 02:57:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 18:31:46.839932
Title: SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
Title（参考訳）: SDXS:画像条件付きリアルタイムワンステップ遅延拡散モデル
Authors: Yuda Song, Zehao Sun, Xuanwu Yin,
Abstract要約: SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
参考スコア（独自算出の注目度）: 5.100085108873068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FPS (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
Abstract（参考訳）: 拡散モデルの最近の進歩は、これらを画像生成の最前線に位置づけている。その優れた性能にもかかわらず、拡散モデルには欠点はなく、複雑なアーキテクチャと相当な計算要求が特徴であり、反復的なサンプリングプロセスのためにかなりの遅延が生じる。これらの制限を緩和するため,モデルの小型化とサンプリングステップの削減を含む2つのアプローチを導入し,モデル遅延を大幅に低減することを目的とした。提案手法は知識蒸留を利用してU-Netと画像デコーダアーキテクチャを合理化し,特徴マッチングとスコア蒸留を利用した一段階DMトレーニング手法を導入する。 SDXS-512 と SDXS-1024 の2つのモデルを示し、それぞれ1つのGPU上で約100 FPS(SD v1.5 より30倍速い)と30 FPS(SDXLより60倍速い)の推論速度を達成する。さらに、我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。

関連論文リスト

FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文参考訳（メタデータ） (2025-02-27T17:39:17Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
PQD: Post-training Quantization for Efficient Diffusion Models [4.809939957401427]
拡散モデル(PQD)のための新しい学習後量子化法を提案する。提案手法は,完全精度拡散モデルを直接8ビット,4ビットモデルに量子化することができる。
論文参考訳（メタデータ） (2024-12-30T19:55:59Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models [7.254959022456085]
一貫性モデル(CM)は、高速サンプリングのための拡散ベース生成モデルの強力なクラスである。既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。本稿では,拡散モデルとCMの過去のパラメータ化を統一し,不安定性の根本原因を同定する簡易な理論フレームワークを提案する。 CIFAR-10では2.06点、ImageNet 64x64では1.48点、ImageNet 512x512では1.88点のFIDスコアを達成し、FIDスコアの差を狭める。
論文参考訳（メタデータ） (2024-10-14T20:43:25Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-09-19T08:57:24Z)
Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文参考訳（メタデータ） (2023-03-02T18:30:16Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。