論文の概要: CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
- arxiv url: http://arxiv.org/abs/2203.00386v1
- Date: Tue, 1 Mar 2022 12:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:59:03.152295
- Title: CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
- Title(参考訳): CLIP-GEN:CLIPを用いたテキスト・画像・ジェネレータの言語学習
- Authors: Zihao Wang, Wei Liu, Qian He, Xinglong Wu, Zili Yi
- Abstract要約: 一般的なテキスト・画像生成のための自己教師型スキームであるCLIP-GENを提案する。
提案手法では,テキスト・ツー・イメージ・ジェネレータをトレーニングするには,一般領域におけるラベルなし画像のセットのみが必要となる。
本手法は画像品質の点で最適化に基づくテキスト・画像の手法よりも優れる。
- 参考スコア(独自算出の注目度): 17.861540412002967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a text-to-image generator in the general domain (e.g., Dall.e,
CogView) requires huge amounts of paired text-image data, which is too
expensive to collect. In this paper, we propose a self-supervised scheme named
as CLIP-GEN for general text-to-image generation with the language-image priors
extracted with a pre-trained CLIP model. In our approach, we only require a set
of unlabeled images in the general domain to train a text-to-image generator.
Specifically, given an image without text labels, we first extract the
embedding of the image in the united language-vision embedding space with the
image encoder of CLIP. Next, we convert the image into a sequence of discrete
tokens in the VQGAN codebook space (the VQGAN model can be trained with the
unlabeled image dataset in hand). Finally, we train an autoregressive
transformer that maps the image tokens from its unified language-vision
representation. Once trained, the transformer can generate coherent image
tokens based on the text embedding extracted from the text encoder of CLIP upon
an input text. Such a strategy enables us to train a strong and general
text-to-image generator with large text-free image dataset such as ImageNet.
Qualitative and quantitative evaluations verify that our method significantly
outperforms optimization-based text-to-image methods in terms of image quality
while not compromising the text-image matching. Our method can even achieve
comparable performance as flagship supervised models like CogView.
- Abstract(参考訳): 一般的なドメイン(dall.e、cogviewなど)でテキストから画像へのジェネレータをトレーニングするには、膨大な量のペアのテキスト画像データが必要です。
本稿では,事前学習したCLIPモデルを用いて,言語画像の事前生成を行うための,CLIP-GENと呼ばれる自己教師型スキームを提案する。
私たちのアプローチでは、テキストから画像へのジェネレータをトレーニングするために、一般的なドメイン内のラベルのないイメージセットのみが必要です。
具体的には、テキストラベルのない画像に対して、まずCLIPのイメージエンコーダを用いて、統一言語ビジョン埋め込み空間における画像の埋め込みを抽出する。
次に、VQGAN符号ブック空間の離散トークン列に変換する(VQGANモデルは、ラベルのない画像データセットを手動でトレーニングすることができる)。
最後に、画像トークンを統一された言語ビジョン表現からマッピングする自己回帰トランスフォーマをトレーニングする。
トレーニング後、CLIPのテキストエンコーダから抽出されたテキスト埋め込みに基づいて、入力テキストに基づいてコヒーレントな画像トークンを生成することができる。
このような戦略により、imagenetのような大きなテキストフリーなイメージデータセットで、強力で一般的なテキストから画像へのジェネレータをトレーニングできます。
定性的および定量的評価により,本手法は画像品質の観点から最適化ベースのテキスト・画像法を著しく上回り,テキスト・画像マッチングを損なわないことを確認した。
私たちのメソッドは、CogViewのようなフラッグシップ教師付きモデルと同等のパフォーマンスを達成できます。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。