論文の概要: PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.04692v2
- Date: Sun, 17 Mar 2024 16:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:31:10.109095
- Title: PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
- Title(参考訳): PixArt-Σ:4Kテキスト・画像生成用拡散変圧器の弱間訓練
- Authors: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li,
- Abstract要約: PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
- 参考スコア(独自算出の注目度): 110.10627872744254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
- Abstract(参考訳): 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。
PixArt-\Sigmaは、前任のPixArt-\alphaよりも大幅に進歩している。
PixArt-\Sigmaの重要な機能は、トレーニングの効率だ。
PixArt-\alphaの基本的な事前トレーニングを活用して、"weaker"ベースラインから"stronger"モデルへと進化する。
1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。
2)効率的なトークン圧縮: キーと値の両方を圧縮し、効率を大幅に改善し、超高解像度画像生成を容易にする、新しい注目モジュールをDiTフレームワーク内に提案する。
これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。
さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。
関連論文リスト
- Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning [36.33160773256632]
Pix2Cap-COCOは,微細な視覚的理解を促進するために設計された,最初のパノプティカルピクセルレベルのキャプションデータセットである。
このアプローチは167,254の詳細なキャプションを持ち、1キャプションあたり平均22.94語である。
また、画像中のインスタンスを識別し、各インスタンスについて詳細な記述を同時に提供するために、モデルに挑戦する、新しいタスクであるパノプティックセグメンテーション・キャプション(panoptic segmentation-captioning)を導入する。
論文 参考訳(メタデータ) (2025-01-23T18:08:57Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers [41.79064227895747]
Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
論文 参考訳(メタデータ) (2024-10-14T15:36:42Z) - SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation [64.40561867379627]
ピクセルアートのような低解像度の量子化画像は、現代の応用で復活している。
SD-$pi$XLは, 微分可能な画像生成器とともに, スコア蒸留サンプリングを用いた定量化画像を生成する手法である。
提案手法は,入力画像を,キーセマンティックな特徴を維持しつつ,低解像度の量子化バージョンに変換する能力であることを示す。
論文 参考訳(メタデータ) (2024-10-08T17:48:01Z) - Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization [33.20136645196318]
最先端のテキスト・トゥ・イメージモデルは、実際はアクセスしにくくなっている。
後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。
この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
論文 参考訳(メタデータ) (2024-08-31T16:09:20Z) - PIXART-{\delta}: Fast and Controllable Image Generation with Latent
Consistency Models [93.29160233752413]
PIXART-deltaはテキストと画像の合成フレームワークである。
LCM(Latent Consistency Model)とControlNetをPIXART-alphaモデルに統合する。
PIXART-deltaは1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成している。
論文 参考訳(メタデータ) (2024-01-10T16:27:38Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and
Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。
JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。
実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-09-22T23:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。