Fugu-MT 論文翻訳(概要): You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs

論文の概要: You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs

arxiv url: http://arxiv.org/abs/2403.12931v1
Date: Tue, 19 Mar 2024 17:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 13:14:11.367263
Title: You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs
Title（参考訳）: 一度だけサンプル: 自己協力的拡散GANによるワンステップテキスト・ツー・イメージ合成
Authors: Yihong Luo, Xiaolong Chen, Jing Tang,
Abstract要約: YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のために設計された、新しい生成モデルである。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散変換器を提供する。
参考スコア（独自算出の注目度）: 7.678629642794006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. This is achieved by integrating the diffusion process with GANs. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO.
Abstract（参考訳）: 高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであるYOSOを紹介する。これは拡散過程とGANを統合することで達成される。具体的には、デノナイジングジェネレータ自体による分布を円滑にし、自己協調学習を行う。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。さらに,本手法は,LoRAファインチューニングにおいても,高品質なワンステップテキスト・ツー・イメージ合成を実現するために,事前学習したテキスト・ツー・イメージ拡散を微調整できることを示す。特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散変換器を、明示的な訓練なしに1024の解像度に適応できる能力で提供する。私たちのコードはhttps://github.com/Luo-Yihong/YOSO.comで提供されています。

関連論文リスト

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows [25.487712175353035]
1ステップ生成モデルをトレーニングするフレームワークであるTwinFlowを提案する。本手法は,テキスト・ツー・イメージタスクにおいて1-NFEで0.83のGenEvalスコアを得る。提案手法は,GenEval および DPG-Bench ベンチマーク上でのオリジナルの 100-NFE モデルの性能と一致する。
論文参考訳（メタデータ） (2025-12-03T07:45:46Z)
Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:21:29Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。