論文の概要: Emage: Non-Autoregressive Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2312.14988v1
- Date: Fri, 22 Dec 2023 10:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:23:17.247556
- Title: Emage: Non-Autoregressive Text-to-Image Generation
- Title(参考訳): Emage:非自己回帰型テキスト画像生成
- Authors: Zhangyin Feng, Runyi Hu, Liangxin Liu, Fan Zhang, Duyu Tang, Yong Dai,
Xiaocheng Feng, Jiwei Li, Bing Qin, Shuming Shi
- Abstract要約: 非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
- 参考スコア(独自算出の注目度): 63.347052548210236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive and diffusion models drive the recent breakthroughs on
text-to-image generation. Despite their huge success of generating
high-realistic images, a common shortcoming of these models is their high
inference latency - autoregressive models run more than a thousand times
successively to produce image tokens and diffusion models convert Gaussian
noise into images with many hundreds of denoising steps. In this work, we
explore non-autoregressive text-to-image models that efficiently generate
hundreds of image tokens in parallel. We develop many model variations with
different learning and inference strategies, initialized text encoders, etc.
Compared with autoregressive baselines that needs to run one thousand times,
our model only runs 16 times to generate images of competitive quality with an
order of magnitude lower inference latency. Our non-autoregressive model with
346M parameters generates an image of 256$\times$256 with about one second on
one V100 GPU.
- Abstract(参考訳): 自己回帰モデルと拡散モデルは、テキストから画像への生成における最近のブレークスルーを駆動する。
自動回帰モデルは画像トークンを生成するために数千回以上連続して実行され、拡散モデルはガウスノイズを数百のデノゲーションステップでイメージに変換する。
本研究では,何百もの画像トークンを並列に効率的に生成する非自己回帰的テキスト・画像モデルについて検討する。
学習戦略や推論戦略,初期化テキストエンコーダなど,さまざまなモデルバリエーションを開発しています。
1000回実行する必要がある自己回帰ベースラインと比較すると、私たちのモデルは16回しか動作せず、非常に低い推論レイテンシで競合品質のイメージを生成します。
346Mパラメータを持つ我々の非自己回帰モデルは、256$\times$256の画像を1つのV100 GPU上で約1秒生成する。
関連論文リスト
- Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z) - Improved Autoregressive Modeling with Distribution Smoothing [106.14646411432823]
オートレグレッシブモデルは画像圧縮に優れていますが、そのサンプル品質はしばしば欠けています。
敵対的防御法の成功に触発されて,ランダム化平滑化を自己回帰的生成モデルに取り入れた。
論文 参考訳(メタデータ) (2021-03-28T09:21:20Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。