論文の概要: CogView2: Faster and Better Text-to-Image Generation via Hierarchical
Transformers
- arxiv url: http://arxiv.org/abs/2204.14217v1
- Date: Thu, 28 Apr 2022 15:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:13:52.963152
- Title: CogView2: Faster and Better Text-to-Image Generation via Hierarchical
Transformers
- Title(参考訳): CogView2:階層変換によるテキスト・画像生成の高速化と改善
- Authors: Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang
- Abstract要約: 新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と比較して非常に競争力のある生成である。
- 参考スコア(独自算出の注目度): 17.757983821569994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of the transformer-based text-to-image models are impeded by
its slow generation and complexity for high-resolution images. In this work, we
put forward a solution based on hierarchical transformers and local parallel
auto-regressive generation. We pretrain a 6B-parameter transformer with a
simple and flexible self-supervised task, Cross-modal general language model
(CogLM), and finetune it for fast super-resolution. The new text-to-image
system, CogView2, shows very competitive generation compared to concurrent
state-of-the-art DALL-E-2, and naturally supports interactive text-guided
editing on images.
- Abstract(参考訳): トランスベースのテキスト対画像モデルの開発は、その低解像度画像の生成と複雑さによって妨げられている。
本研究では,階層的トランスフォーマーと局所並列オートリグレッシブ生成に基づく解法を提案する。
我々は,単純で柔軟な自己教師付きタスクであるcoglm(cross-modal general language model)を用いて6bパラメータトランスフォーマーを事前訓練し,高速超解像のために微調整する。
新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と競合する生成能力を示し、画像のインタラクティブなテキストガイド編集を自然にサポートする。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding [111.16221796950126]
半自己回帰型テキスト・画像生成モデルであるLformerを提案する。
画像トークンの2次元構造を利用することで、Lformerは既存のTransformerベースの手法よりも高速に実現できる。
Lformerは、微調整を必要とせずに画像を編集できる。
論文 参考訳(メタデータ) (2023-03-07T11:10:22Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Draft-and-Revise: Effective Image Generation with Contextual
RQ-Transformer [40.04085054791994]
生成過程におけるグローバルコンテキストを考慮した,コンテキストRQ変換器を用いたドラフト・アンド・リビジョンの効果的な画像生成フレームワークを提案する。
実験では,条件付き画像生成における最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-06-09T12:25:24Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - CogView: Mastering Text-to-Image Generation via Transformers [51.91562870331348]
本稿では,VQ-VAEトークンを用いた4ビリオンパラメータ変換器であるCogViewを提案する。
また、スタイル学習、超解像、テキスト画像ランキング、ファッションデザインなど、下流タスクの微調整戦略を実証する。
CogViewは、ぼやけたMS COCO上で、最先端のFIDを新たに実現し、以前のGANベースのモデルと最近の類似のDALL-Eを上回っている。
論文 参考訳(メタデータ) (2021-05-26T16:52:53Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。