論文の概要: SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2410.10629v2
- Date: Sun, 20 Oct 2024 14:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:35:30.869720
- Title: SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
- Title(参考訳): SANA:線形拡散変換器を用いた高分解能高分解能画像合成
- Authors: Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han,
- Abstract要約: Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
- 参考スコア(独自算出の注目度): 41.79064227895747
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image alignment at a remarkably fast speed, deployable on laptop GPU. Core designs include: (1) Deep compression autoencoder: unlike traditional AEs, which compress images only 8$\times$, we trained an AE that can compress images 32$\times$, effectively reducing the number of latent tokens. (2) Linear DiT: we replace all vanilla attention in DiT with linear attention, which is more efficient at high resolutions without sacrificing quality. (3) Decoder-only text encoder: we replaced T5 with modern decoder-only small LLM as the text encoder and designed complex human instruction with in-context learning to enhance the image-text alignment. (4) Efficient training and sampling: we propose Flow-DPM-Solver to reduce sampling steps, with efficient caption labeling and selection to accelerate convergence. As a result, Sana-0.6B is very competitive with modern giant diffusion model (e.g. Flux-12B), being 20 times smaller and 100+ times faster in measured throughput. Moreover, Sana-0.6B can be deployed on a 16GB laptop GPU, taking less than 1 second to generate a 1024$\times$1024 resolution image. Sana enables content creation at low cost. Code and model will be publicly released.
- Abstract(参考訳): 私たちは、4096$\times$4096解像度までの画像を効率的に生成できるテキスト・ツー・イメージ・フレームワークであるSanaを紹介します。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
1) 深部圧縮オートエンコーダ: 8$\times$のみを圧縮する従来のAEとは異なり、32$\times$で画像を圧縮できるAEを訓練し、遅延トークンの数を効果的に削減した。
2) 線形DiT: 品質を犠牲にすることなく高分解能で高効率なDiTのバニラアテンションをリニアアテンションに置き換える。
(3)デコーダのみのテキストエンコーダ: テキストエンコーダとして, T5 を現代のデコーダのみの小型 LLM に置き換え, 画像テキストアライメントを強化するために, コンテクスト内学習を用いた複雑なヒューマンインストラクションを設計した。
(4) 効率的なトレーニングとサンプリング: 効率的なキャプションラベリング, コンバージェンスを高速化するセレクションにより, サンプリングステップを削減するフロー-DPM-ソルバーを提案する。
その結果、Sana-0.6Bは現代の巨大拡散モデル(例えば Flux-12B)と非常に競合し、測定スループットの20倍、100倍以上の速度である。
さらに、Sana-0.6Bは16GBのラップトップGPUにデプロイでき、1秒未満で1024$\times$1024の解像度画像を生成する。
Sanaは低コストでコンテンツ作成を可能にする。
コードとモデルは公開されます。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文 参考訳(メタデータ) (2024-06-13T17:41:37Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - One-shot Ultra-high-Resolution Generative Adversarial Network That
Synthesizes 16K Images On A Single GPU [1.9060575156739825]
OUR-GANは、単一のトレーニング画像から反復的でない16K画像を生成するワンショット生成対向ネットワークフレームワークである。
OUR-GANは12.5GBのGPUメモリと4Kの画像をわずか4.29GBで合成できる。
OUR-GANは、単一のコンシューマGPU上で反復的でないUHR画像を生成する最初のワンショット画像合成器である。
論文 参考訳(メタデータ) (2022-02-28T13:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。