Fugu-MT 論文翻訳(概要): ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation

論文の概要: ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation

arxiv url: http://arxiv.org/abs/2112.15283v1
Date: Fri, 31 Dec 2021 03:53:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-03 13:32:18.504202
Title: ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation
Title（参考訳）: ERNIE-ViLG:双方向ビジョンランゲージ生成のための統合生成事前学習
Authors: Han Zhang, Weichong Yin, Yewei Fang, Lanxin Li, Boqiang Duan, Zhihua Wu, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
Abstract要約: ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
参考スコア（独自算出の注目度）: 22.47279425592133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conventional methods for the image-text generation tasks mainly tackle the naturally bidirectional generation tasks separately, focusing on designing task-specific frameworks to improve the quality and fidelity of the generated samples. Recently, Vision-Language Pre-training models have greatly improved the performance of the image-to-text generation tasks, but large-scale pre-training models for text-to-image synthesis task are still under-developed. In this paper, we propose ERNIE-ViLG, a unified generative pre-training framework for bidirectional image-text generation with transformer model. Based on the image quantization models, we formulate both image generation and text generation as autoregressive generative tasks conditioned on the text/image input. The bidirectional image-text generative modeling eases the semantic alignments across vision and language. For the text-to-image generation process, we further propose an end-to-end training method to jointly learn the visual sequence generator and the image reconstructor. To explore the landscape of large-scale pre-training for bidirectional text-image generation, we train a 10-billion parameter ERNIE-ViLG model on a large-scale dataset of 145 million (Chinese) image-text pairs which achieves state-of-the-art performance for both text-to-image and image-to-text tasks, obtaining an FID of 7.9 on MS-COCO for text-to-image synthesis and best results on COCO-CN and AIC-ICC for image captioning.
Abstract（参考訳）: 画像テキスト生成タスクの従来の手法では,生成したサンプルの品質と忠実性を改善するためのタスク固有のフレームワークの設計に重点を置いている。近年,視覚言語事前学習モデルでは画像・テキスト生成タスクの性能が大幅に向上しているが,テキスト・画像合成タスクの大規模事前学習モデルはまだ未開発である。本稿では,トランスフォーマーモデルを用いた双方向画像テキスト生成のための統合生成前学習フレームワークernie-vilgを提案する。画像量子化モデルに基づいて、画像生成とテキスト生成を、テキスト/画像入力に条件付き自己回帰生成タスクとして定式化する。双方向画像テキスト生成モデリングは、視覚と言語間のセマンティックアライメントを容易にする。テキスト対画像生成プロセスでは、視覚シーケンス生成装置と画像再構成装置を共同で学習するエンドツーエンドのトレーニング手法も提案する。双方向テキスト画像生成のための大規模事前学習の展望を探るため、テキスト間合成と画像間合成のためのms-cocoのfid7.9と、画像キャプションのためのcoco-cnとaic-iccのベスト結果を得るために、テキスト間処理と画像間処理の両方の最先端性能を実現する、1億4500万(中国)の大規模データセット上で、10億のパラメータernie-vilgモデルをトレーニングする。

関連論文リスト

Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文参考訳（メタデータ） (2026-01-07T19:19:44Z)
Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。 IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5～10ポイント向上した。
論文参考訳（メタデータ） (2025-09-08T17:56:23Z)
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。 VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文参考訳（メタデータ） (2023-12-14T18:59:43Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
TextCLIP: Text-Guided Face Image Generation And Manipulation Without Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-09-21T09:34:20Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文参考訳（メタデータ） (2022-05-27T17:03:38Z)
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。 Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-03-17T03:18:22Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
Unifying Multimodal Transformer for Bi-directional Image and Text Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-19T06:01:24Z)
Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文参考訳（メタデータ） (2021-08-03T08:38:16Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。