論文の概要: UFOGen: You Forward Once Large Scale Text-to-Image Generation via
Diffusion GANs
- arxiv url: http://arxiv.org/abs/2311.09257v1
- Date: Tue, 14 Nov 2023 23:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:19:32.175805
- Title: UFOGen: You Forward Once Large Scale Text-to-Image Generation via
Diffusion GANs
- Title(参考訳): UFOGen:Diffusion GANを使った大規模テキスト・画像生成
- Authors: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
- Abstract要約: 我々は,超高速でワンステップのテキスト・ツー・イメージ合成を目的とした新しい生成モデルUFOGenを提案する。
従来のアプローチとは異なり、UFOGenはGANの目的と拡散モデルを統合するハイブリッド手法を採用している。
UFOGenは、1ステップでテキスト記述に条件付けされた高品質な画像を効率よく生成する。
- 参考スコア(独自算出の注目度): 16.121569507866848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, $\dagger$ indicates
equal contribution.
- Abstract(参考訳): テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。
そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。
拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。
新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。
従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。
特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。
Googleの学生研究者として行った$\dagger$は、同じ貢献を意味する。
関連論文リスト
- Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - GANTASTIC: GAN-based Transfer of Interpretable Directions for Disentangled Image Editing in Text-to-Image Diffusion Models [4.710921988115686]
GANTASTICは、事前学習したGANモデルから既存の方向を抽出し、これらの方向を拡散モデルに転送する新しいフレームワークである。
このアプローチは、拡散モデルが知られている生成的品質と多様性を維持するだけでなく、正確なターゲット画像編集を行う能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-28T17:55:16Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - MobileDiffusion: Instant Text-to-Image Generation on Mobile Devices [13.923293508790122]
我々は,高効率なテキスト・画像拡散モデルである textbfMobileDiffusion を提案する。
蒸留法と拡散GAN微調整法をMobileDiffusionに応用し, それぞれ8ステップと1ステップの推論を行った。
MobileDiffusionは、モバイルデバイス上で512times512$の画像を生成するために、驚くべきTextbfsub秒の推論速度を達成する。
論文 参考訳(メタデータ) (2023-11-28T07:14:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using
Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。
安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文 参考訳(メタデータ) (2023-09-01T04:42:03Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。