論文の概要: You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs
- arxiv url: http://arxiv.org/abs/2403.12931v4
- Date: Mon, 15 Jul 2024 14:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:25:37.971202
- Title: You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs
- Title(参考訳): 一度だけサンプル: 自己協力的拡散GANによるワンステップテキスト・画像合成
- Authors: Yihong Luo, Xiaolong Chen, Xinghua Qu, Jing Tang,
- Abstract要約: YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のために設計された、新しい生成モデルである。
YOSOは,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散変換器を提供する。
- 参考スコア(独自算出の注目度): 11.521646925563648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. YOSO integrates the diffusion process with GANs to achieve the best of two worlds. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without extra explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO
- Abstract(参考訳): 高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであるYOSOを紹介する。
YOSOは拡散過程をGANと統合し、2つの世界のベストを達成する。
具体的には、デノナイジングジェネレータ自体による分布を円滑にし、自己協調学習を行う。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
さらに,本手法は,LoRAファインチューニングにおいても,高品質なワンステップテキスト・ツー・イメージ合成を実現するために,事前学習したテキスト・ツー・イメージ拡散を微調整できることを示す。
特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散トランスフォーマーを提供する。
私たちのコードはhttps://github.com/Luo-Yihong/YOSOで提供されます。
関連論文リスト
- Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion [45.06392070934473]
PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。
本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。
Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
論文 参考訳(メタデータ) (2023-12-27T09:21:45Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - Training End-to-end Single Image Generators without GANs [27.393821783237186]
AugurOneは、単一画像生成モデルをトレーニングするための新しいアプローチである。
提案手法は,入力画像の非アフィン強化を用いて,アップスケーリングニューラルネットワークを訓練する。
制御画像合成が可能なコンパクト潜在空間を共同で学習する。
論文 参考訳(メタデータ) (2020-04-07T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。