論文の概要: ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation
- arxiv url: http://arxiv.org/abs/2112.15283v1
- Date: Fri, 31 Dec 2021 03:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:32:18.504202
- Title: ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation
- Title(参考訳): ERNIE-ViLG:双方向ビジョンランゲージ生成のための統合生成事前学習
- Authors: Han Zhang, Weichong Yin, Yewei Fang, Lanxin Li, Boqiang Duan, Zhihua
Wu, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 22.47279425592133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional methods for the image-text generation tasks mainly tackle the
naturally bidirectional generation tasks separately, focusing on designing
task-specific frameworks to improve the quality and fidelity of the generated
samples. Recently, Vision-Language Pre-training models have greatly improved
the performance of the image-to-text generation tasks, but large-scale
pre-training models for text-to-image synthesis task are still under-developed.
In this paper, we propose ERNIE-ViLG, a unified generative pre-training
framework for bidirectional image-text generation with transformer model. Based
on the image quantization models, we formulate both image generation and text
generation as autoregressive generative tasks conditioned on the text/image
input. The bidirectional image-text generative modeling eases the semantic
alignments across vision and language. For the text-to-image generation
process, we further propose an end-to-end training method to jointly learn the
visual sequence generator and the image reconstructor. To explore the landscape
of large-scale pre-training for bidirectional text-image generation, we train a
10-billion parameter ERNIE-ViLG model on a large-scale dataset of 145 million
(Chinese) image-text pairs which achieves state-of-the-art performance for both
text-to-image and image-to-text tasks, obtaining an FID of 7.9 on MS-COCO for
text-to-image synthesis and best results on COCO-CN and AIC-ICC for image
captioning.
- Abstract(参考訳): 画像テキスト生成タスクの従来の手法では,生成したサンプルの品質と忠実性を改善するためのタスク固有のフレームワークの設計に重点を置いている。
近年,視覚言語事前学習モデルでは画像・テキスト生成タスクの性能が大幅に向上しているが,テキスト・画像合成タスクの大規模事前学習モデルはまだ未開発である。
本稿では,トランスフォーマーモデルを用いた双方向画像テキスト生成のための統合生成前学習フレームワークernie-vilgを提案する。
画像量子化モデルに基づいて、画像生成とテキスト生成を、テキスト/画像入力に条件付き自己回帰生成タスクとして定式化する。
双方向画像テキスト生成モデリングは、視覚と言語間のセマンティックアライメントを容易にする。
テキスト対画像生成プロセスでは、視覚シーケンス生成装置と画像再構成装置を共同で学習するエンドツーエンドのトレーニング手法も提案する。
双方向テキスト画像生成のための大規模事前学習の展望を探るため、テキスト間合成と画像間合成のためのms-cocoのfid7.9と、画像キャプションのためのcoco-cnとaic-iccのベスト結果を得るために、テキスト間処理と画像間処理の両方の最先端性能を実現する、1億4500万(中国)の大規模データセット上で、10億のパラメータernie-vilgモデルをトレーニングする。
関連論文リスト
- Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-17T03:18:22Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。