論文の概要: LAFITE: Towards Language-Free Training for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2111.13792v1
- Date: Sat, 27 Nov 2021 01:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 17:02:06.482670
- Title: LAFITE: Towards Language-Free Training for Text-to-Image Generation
- Title(参考訳): lafite: テキスト対画像生成のための言語フリートレーニングに向けて
- Authors: Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer,
Tong Yu, Jiuxiang Gu, Jinhui Xu, Tong Sun
- Abstract要約: テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
- 参考スコア(独自算出の注目度): 83.2935513540494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major challenges in training text-to-image generation models is
the need of a large number of high-quality image-text pairs. While image
samples are often easily accessible, the associated text descriptions typically
require careful human captioning, which is particularly time- and
cost-consuming. In this paper, we propose the first work to train text-to-image
generation models without any text data. Our method leverages the well-aligned
multi-modal semantic space of the powerful pre-trained CLIP model: the
requirement of text-conditioning is seamlessly alleviated via generating text
features from image features. Extensive experiments are conducted to illustrate
the effectiveness of the proposed method. We obtain state-of-the-art results in
the standard text-to-image generation tasks. Importantly, the proposed
language-free model outperforms most existing models trained with full
image-text pairs. Furthermore, our method can be applied in fine-tuning
pre-trained models, which saves both training time and cost in training
text-to-image generation models. Our pre-trained model obtains competitive
results in zero-shot text-to-image generation on the MS-COCO dataset, yet with
around only 1% of the model size and training data size relative to the
recently proposed large DALL-E model.
- Abstract(参考訳): テキスト-画像生成モデルのトレーニングにおける大きな課題の1つは、多数の高品質の画像-テキストペアの必要性である。
画像サンプルは容易にアクセス可能であることが多いが、関連するテキスト記述は通常、注意深い人間のキャプションを必要とする。
本稿では,テキストデータを用いずにテキスト対画像生成モデルを訓練する最初の手法を提案する。
提案手法では,画像特徴量からテキスト特徴量を生成することで,テキストコンディショニングの要件をシームレスに緩和する。
提案手法の有効性を説明するため,広範な実験を行った。
標準テキスト対画像生成タスクにおいて最先端の結果を得る。
重要なことに、提案された言語フリーモデルは、フルイメージテキストペアでトレーニングされた既存のモデルよりも優れている。
さらに,本手法を微調整事前学習モデルに適用することにより,テキスト・画像生成モデルのトレーニング時間とコストを削減できる。
事前学習したモデルは,ms-cocoデータセット上でゼロショットテキスト対画像生成の競合結果を得るが,提案する大規模dall-eモデルと比較して,モデルサイズとトレーニングデータサイズの1%程度しか得られない。
関連論文リスト
- CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model [2.9849290402462927]
トレーニング済みのCLIPモデルを利用して,マルチモーダルなテキスト画像表現と強力な画像生成機能を実現するCLIP-VQDiffusionを提案する。
筆者らのモデルでは,従来の最先端手法を4.4%向上させ,テキストが分布内外であっても,非常にリアルな画像を生成することができた。
論文 参考訳(メタデータ) (2024-03-22T04:34:59Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。