Fugu-MT 論文翻訳(概要): PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

論文の概要: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2403.04692v1
Date: Thu, 7 Mar 2024 17:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:14:52.035212
Title: PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Title（参考訳）: PixArt-\Sigma:4Kテキスト・画像生成用拡散変圧器の弱間訓練
Authors: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
Abstract要約: PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。 PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
参考スコア（独自算出の注目度）: 113.76986511673864
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
Abstract（参考訳）: 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。 pixart-\sigmaは、その前身であるpixart-\alphaよりも大きな進歩を示しており、非常に高い忠実度とテキストプロンプトとの整合を改善した画像を提供している。 pixart-\sigmaの重要な特徴はトレーニング効率である。 pixart-\alphaの基本的な事前トレーニングを活用することで、"weaker"ベースラインから、"weak-to-strong training"と呼ばれるプロセスである高品質データの導入による"strong"モデルへと進化します。 1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。 2)効率的なトークン圧縮: キーと値の両方を圧縮し,効率を大幅に向上し,超高解像度画像生成を容易にする,新しい注目モジュールを提案する。これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。

関連論文リスト

4KAgent: Agentic Any Image to 4K Super-Resolution [62.99433518118836]
我々は、任意の画像を4K解像度にスケールアップするために設計された超高解像度のジェネラリストシステムである4KAgentを提示する。 4KAgentは,(1)ベズークのユースケースに基づいて4KAgentパイプラインをカスタマイズするモジュールであるプロファイリング,(2)画像品質評価の専門家とともに視覚言語モデルを活用して入力画像を分析し,調整された復元計画を作成するパーセプションエージェント,(3)各ステップの最適出力を選択するための品質駆動混合ポリシーに従って計画を実行するリカバリエージェント,の3つのコアコンポーネントから構成される。われわれは4kagentを厳格に評価する
論文参考訳（メタデータ） (2025-07-09T17:59:19Z)
Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields [14.805239427360208]
AIGCファンデーションモデルは、コンパクトな記述子以上のものから複雑な構造ときめ細かい詳細を忠実に生成できるほど強力である。 OpenAIの最近のGPT-4o画像生成は、印象的なクロスモダリティ生成、編集、設計機能を実現している。
論文参考訳（メタデータ） (2025-04-30T17:20:14Z)
Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning [36.33160773256632]
Pix2Cap-COCOは,微細な視覚的理解を促進するために設計された,最初のパノプティカルピクセルレベルのキャプションデータセットである。このアプローチは167,254の詳細なキャプションを持ち、1キャプションあたり平均22.94語である。また、画像中のインスタンスを識別し、各インスタンスについて詳細な記述を同時に提供するために、モデルに挑戦する、新しいタスクであるパノプティックセグメンテーション・キャプション(panoptic segmentation-captioning)を導入する。
論文参考訳（メタデータ） (2025-01-23T18:08:57Z)
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers [41.79064227895747]
Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。 Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
論文参考訳（メタデータ） (2024-10-14T15:36:42Z)
SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation [64.40561867379627]
ピクセルアートのような低解像度の量子化画像は、現代の応用で復活している。 SD-$pi$XLは, 微分可能な画像生成器とともに, スコア蒸留サンプリングを用いた定量化画像を生成する手法である。提案手法は,入力画像を,キーセマンティックな特徴を維持しつつ,低解像度の量子化バージョンに変換する能力であることを示す。
論文参考訳（メタデータ） (2024-10-08T17:48:01Z)
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization [33.20136645196318]
最先端のテキスト・トゥ・イメージモデルは、実際はアクセスしにくくなっている。後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
論文参考訳（メタデータ） (2024-08-31T16:09:20Z)
PIXART-{\delta}: Fast and Controllable Image Generation with Latent Consistency Models [93.29160233752413]
PIXART-deltaはテキストと画像の合成フレームワークである。 LCM(Latent Consistency Model)とControlNetをPIXART-alphaモデルに統合する。 PIXART-deltaは1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成している。
論文参考訳（メタデータ） (2024-01-10T16:27:38Z)
PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。 PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文参考訳（メタデータ） (2023-09-30T16:18:00Z)
Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文参考訳（メタデータ） (2023-09-16T08:12:12Z)
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文参考訳（メタデータ） (2022-11-14T22:54:19Z)
Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。 JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2022-09-22T23:25:08Z)
Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文参考訳（メタデータ） (2022-07-20T14:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。