論文の概要: Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding
- arxiv url: http://arxiv.org/abs/2303.03800v1
- Date: Tue, 7 Mar 2023 11:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:40:30.587978
- Title: Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding
- Title(参考訳): Lformer: L字型ブロック並列デコードによるテキスト間画像生成
- Authors: Jiacheng Li, Longhui Wei, ZongYuan Zhan, Xin He, Siliang Tang, Qi
Tian, Yueting Zhuang
- Abstract要約: 半自己回帰型テキスト・画像生成モデルであるLformerを提案する。
画像トークンの2次元構造を利用することで、Lformerは既存のTransformerベースの手法よりも高速に実現できる。
Lformerは、微調整を必要とせずに画像を編集できる。
- 参考スコア(独自算出の注目度): 111.16221796950126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative transformers have shown their superiority in synthesizing
high-fidelity and high-resolution images, such as good diversity and training
stability. However, they suffer from the problem of slow generation since they
need to generate a long token sequence autoregressively. To better accelerate
the generative transformers while keeping good generation quality, we propose
Lformer, a semi-autoregressive text-to-image generation model. Lformer firstly
encodes an image into $h{\times}h$ discrete tokens, then divides these tokens
into $h$ mirrored L-shape blocks from the top left to the bottom right and
decodes the tokens in a block parallelly in each step. Lformer predicts the
area adjacent to the previous context like autoregressive models thus it is
more stable while accelerating. By leveraging the 2D structure of image tokens,
Lformer achieves faster speed than the existing transformer-based methods while
keeping good generation quality. Moreover, the pretrained Lformer can edit
images without the requirement for finetuning. We can roll back to the early
steps for regeneration or edit the image with a bounding box and a text prompt.
- Abstract(参考訳): 生成変換器は、優れた多様性や訓練安定性など、高忠実で高解像度の画像の合成において、その優位性を示している。
しかし、長いトークンシーケンスを自動回帰的に生成する必要があるため、遅い生成の問題に悩まされる。
優れた生成品質を維持しつつ、生成変換器の高速化を図るため、半自己回帰型テキスト画像生成モデルであるLformerを提案する。
Lformerはまずイメージを$h{\times}h$離散トークンにエンコードし、次にこれらのトークンを$h$ミラー化されたL字型ブロックに分割し、各ステップで平行にブロック内のトークンをデコードする。
Lformerは、自己回帰モデルのような以前の文脈に隣接する領域を予測し、加速しながらより安定である。
イメージトークンの2d構造を活用することで、lformerは、優れた生成品質を維持しつつ、既存のトランスフォーマティブベースの方法よりも高速に実現できます。
さらに、事前訓練されたLformerは、微調整の必要なしに画像を編集できる。
画像をリジェネレーションしたり、バウンディングボックスとテキストプロンプトで編集するための初期のステップにロールバックできます。
関連論文リスト
- A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation [45.24970921978198]
本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。
DnD-Transformerは、新しい自己回帰方向、テクトモデル深さとシーケンス長方向を導入することで、画像のより多くのコードを予測する。
リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティの理解を実証する。
論文 参考訳(メタデータ) (2024-10-02T18:10:05Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - CogView2: Faster and Better Text-to-Image Generation via Hierarchical
Transformers [17.757983821569994]
新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と比較して非常に競争力のある生成である。
論文 参考訳(メタデータ) (2022-04-28T15:51:11Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。