論文の概要: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.04692v1
- Date: Thu, 7 Mar 2024 17:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:14:52.035212
- Title: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K
Text-to-Image Generation
- Title(参考訳): PixArt-\Sigma:4Kテキスト・画像生成用拡散変圧器の弱間訓練
- Authors: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren,
Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
- Abstract要約: PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
- 参考スコア(独自算出の注目度): 113.76986511673864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.
- Abstract(参考訳): 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。
pixart-\sigmaは、その前身であるpixart-\alphaよりも大きな進歩を示しており、非常に高い忠実度とテキストプロンプトとの整合を改善した画像を提供している。
pixart-\sigmaの重要な特徴はトレーニング効率である。
pixart-\alphaの基本的な事前トレーニングを活用することで、"weaker"ベースラインから、"weak-to-strong training"と呼ばれるプロセスである高品質データの導入による"strong"モデルへと進化します。
1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。
2)効率的なトークン圧縮: キーと値の両方を圧縮し,効率を大幅に向上し,超高解像度画像生成を容易にする,新しい注目モジュールを提案する。
これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。
さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。
関連論文リスト
- SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers [41.79064227895747]
Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
論文 参考訳(メタデータ) (2024-10-14T15:36:42Z) - SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation [64.40561867379627]
ピクセルアートのような低解像度の量子化画像は、現代の応用で復活している。
SD-$pi$XLは, 微分可能な画像生成器とともに, スコア蒸留サンプリングを用いた定量化画像を生成する手法である。
提案手法は,入力画像を,キーセマンティックな特徴を維持しつつ,低解像度の量子化バージョンに変換する能力であることを示す。
論文 参考訳(メタデータ) (2024-10-08T17:48:01Z) - Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization [33.20136645196318]
最先端のテキスト・トゥ・イメージモデルは、実際はアクセスしにくくなっている。
後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。
この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
論文 参考訳(メタデータ) (2024-08-31T16:09:20Z) - PIXART-{\delta}: Fast and Controllable Image Generation with Latent
Consistency Models [93.29160233752413]
PIXART-deltaはテキストと画像の合成フレームワークである。
LCM(Latent Consistency Model)とControlNetをPIXART-alphaモデルに統合する。
PIXART-deltaは1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成している。
論文 参考訳(メタデータ) (2024-01-10T16:27:38Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and
Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。
JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。
実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-09-22T23:25:08Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。