論文の概要: CogView: Mastering Text-to-Image Generation via Transformers
- arxiv url: http://arxiv.org/abs/2105.13290v1
- Date: Wed, 26 May 2021 16:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:33:43.269907
- Title: CogView: Mastering Text-to-Image Generation via Transformers
- Title(参考訳): CogView: トランスフォーマーによるテキスト-画像生成のマスタリング
- Authors: Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin,
Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang
- Abstract要約: 本稿では,VQ-VAEトークンを用いた4ビリオンパラメータ変換器であるCogViewを提案する。
また、スタイル学習、超解像、テキスト画像ランキング、ファッションデザインなど、下流タスクの微調整戦略を実証する。
CogViewは、ぼやけたMS COCO上で、最先端のFIDを新たに実現し、以前のGANベースのモデルと最近の類似のDALL-Eを上回っている。
- 参考スコア(独自算出の注目度): 51.91562870331348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image generation in the general domain has long been an open problem,
which requires both generative model and cross-modal understanding. We propose
CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance
this problem. We also demonstrate the finetuning strategies for various
downstream tasks, e.g. style learning, super-resolution, text-image ranking and
fashion design, and methods to stabilize pretraining, e.g. eliminating NaN
losses. CogView (zero-shot) achieves a new state-of-the-art FID on blurred MS
COCO, outperforms previous GAN-based models and a recent similar work DALL-E.
- Abstract(参考訳): 一般領域におけるテキスト・ツー・イメージ生成は、生成モデルと相互理解の両方を必要とする、長い間オープンな問題であった。
本稿では,VQ-VAEトークンを用いた4ビリオンパラメトリックトランスであるCogViewを提案する。
また、下流の様々なタスクの微調整戦略を実証する。
スタイル学習、超解像度、テキストイメージのランキングとファッションデザイン、事前学習を安定させる方法など。
NaN損失を排除。
CogView(ゼロショット)は、ぼやけたMS COCO上で新しい最先端のFIDを実現し、以前のGANベースモデルと最近の類似のDALL-Eより優れている。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Draft-and-Revise: Effective Image Generation with Contextual
RQ-Transformer [40.04085054791994]
生成過程におけるグローバルコンテキストを考慮した,コンテキストRQ変換器を用いたドラフト・アンド・リビジョンの効果的な画像生成フレームワークを提案する。
実験では,条件付き画像生成における最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-06-09T12:25:24Z) - CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers [16.255516347736535]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。
CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-29T19:02:15Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - CogView2: Faster and Better Text-to-Image Generation via Hierarchical
Transformers [17.757983821569994]
新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と比較して非常に競争力のある生成である。
論文 参考訳(メタデータ) (2022-04-28T15:51:11Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - VCE: Variational Convertor-Encoder for One-Shot Generalization [3.86981854389977]
変分変換エンコーダ(VCE)は、画像を様々なスタイルに変換する。
本稿では,一括一般化問題に対する新しいアーキテクチャを提案する。
また, 変分オートエンコーダ(VAE)の性能を向上し, その曖昧な点をフィルタする。
論文 参考訳(メタデータ) (2020-11-12T07:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。