論文の概要: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.04692v1
- Date: Thu, 7 Mar 2024 17:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:14:52.035212
- Title: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K
Text-to-Image Generation
- Title(参考訳): PixArt-\Sigma:4Kテキスト・画像生成用拡散変圧器の弱間訓練
- Authors: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren,
Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
- Abstract要約: PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
- 参考スコア(独自算出の注目度): 113.76986511673864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.
- Abstract(参考訳): 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。
pixart-\sigmaは、その前身であるpixart-\alphaよりも大きな進歩を示しており、非常に高い忠実度とテキストプロンプトとの整合を改善した画像を提供している。
pixart-\sigmaの重要な特徴はトレーニング効率である。
pixart-\alphaの基本的な事前トレーニングを活用することで、"weaker"ベースラインから、"weak-to-strong training"と呼ばれるプロセスである高品質データの導入による"strong"モデルへと進化します。
1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。
2)効率的なトークン圧縮: キーと値の両方を圧縮し,効率を大幅に向上し,超高解像度画像生成を容易にする,新しい注目モジュールを提案する。
これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。
さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。
関連論文リスト
- Mapping New Realities: Ground Truth Image Creation with Pix2Pix Image-to-Image Translation [4.767259403145913]
本稿では,抽象地図画像から現実的な地上真実画像へ変換するPix2Pixの新たな応用について検討する。
本稿では,Pix2Pixモデルを用いた高忠実度データセットの生成について述べる。
論文 参考訳(メタデータ) (2024-04-30T05:11:32Z) - PIXART-{\delta}: Fast and Controllable Image Generation with Latent
Consistency Models [93.29160233752413]
PIXART-deltaはテキストと画像の合成フレームワークである。
LCM(Latent Consistency Model)とControlNetをPIXART-alphaモデルに統合する。
PIXART-deltaは1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成している。
論文 参考訳(メタデータ) (2024-01-10T16:27:38Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and
Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。
JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。
実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-09-22T23:25:08Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。