論文の概要: PIXART-{\delta}: Fast and Controllable Image Generation with Latent
Consistency Models
- arxiv url: http://arxiv.org/abs/2401.05252v1
- Date: Wed, 10 Jan 2024 16:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:06:33.239448
- Title: PIXART-{\delta}: Fast and Controllable Image Generation with Latent
Consistency Models
- Title(参考訳): PIXART-{\delta}:潜時一貫性モデルによる高速かつ制御可能な画像生成
- Authors: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang
Zhao, Zhenguo Li
- Abstract要約: PIXART-deltaはテキストと画像の合成フレームワークである。
LCM(Latent Consistency Model)とControlNetをPIXART-alphaモデルに統合する。
PIXART-deltaは1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成している。
- 参考スコア(独自算出の注目度): 93.29160233752413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.
- Abstract(参考訳): この技術報告では、LCM(Latent Consistency Model)とControlNetを高度なPIXART-{\alphaモデルに統合するテキスト・ツー・イメージ合成フレームワークであるPIXART-{\deltaを紹介した。
PIXART-{\alpha} は、1024pxの解像度の高品質な画像を、極めて効率的なトレーニングプロセスで生成できることで認識されている。
PIXART-{\delta} への LCM の統合は推論速度を大幅に加速し、わずか2-4ステップで高品質な画像を生成することができる。
特に、PIXART-{\delta}は1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成し、PIXART-{\alphaよりも7倍改善された。
さらに、PIXART-{\delta}は、1日で32GBのV100 GPUで効率的にトレーニングできるように設計されている。
8ビット推論機能(von platen et al., 2023)により、pixart-{\delta}は8gbのgpuメモリ制約で1024px画像を合成でき、ユーザビリティとアクセシビリティが大幅に向上する。
さらに、コントロールネットのようなモジュールを組み込むことで、テキスト間拡散モデルのきめ細かい制御が可能になる。
本稿では,トランスフォーマーに適した新しい制御Net-Transformerアーキテクチャを導入し,高品質な画像生成とともに明示的な制御性を実現する。
最新のオープンソースの画像生成モデルであるpixart-{\delta}は、安定した拡散系列の代替となり、テキストから画像への合成に大きく寄与する。
関連論文リスト
- StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control [43.04874003852966]
StreamMultiDiffusionは、最初のリアルタイムリージョンベースのテキスト画像生成フレームワークである。
我々のソリューションは、セマンティックパレットと呼ばれるインタラクティブな画像生成のための新しいパラダイムを開放する。
論文 参考訳(メタデータ) (2024-03-14T02:51:01Z) - PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [110.10627872744254]
PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
論文 参考訳(メタデータ) (2024-03-07T17:41:37Z) - Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass
Diffusion Transformers [2.078423403798577]
画像生成モデルであるHourglass Diffusion Transformer (HDiT)を提案する。
数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。
論文 参考訳(メタデータ) (2024-01-21T21:49:49Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - ImageSig: A signature transform for ultra-lightweight image recognition [0.0]
ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。
ImageSigはRaspberry PiやJetson-nanoのようなハードウェアで前例のないパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-13T23:48:32Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。