論文の概要: CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
- arxiv url: http://arxiv.org/abs/2203.00386v1
- Date: Tue, 1 Mar 2022 12:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:59:03.152295
- Title: CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
- Title(参考訳): CLIP-GEN:CLIPを用いたテキスト・画像・ジェネレータの言語学習
- Authors: Zihao Wang, Wei Liu, Qian He, Xinglong Wu, Zili Yi
- Abstract要約: 一般的なテキスト・画像生成のための自己教師型スキームであるCLIP-GENを提案する。
提案手法では,テキスト・ツー・イメージ・ジェネレータをトレーニングするには,一般領域におけるラベルなし画像のセットのみが必要となる。
本手法は画像品質の点で最適化に基づくテキスト・画像の手法よりも優れる。
- 参考スコア(独自算出の注目度): 17.861540412002967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a text-to-image generator in the general domain (e.g., Dall.e,
CogView) requires huge amounts of paired text-image data, which is too
expensive to collect. In this paper, we propose a self-supervised scheme named
as CLIP-GEN for general text-to-image generation with the language-image priors
extracted with a pre-trained CLIP model. In our approach, we only require a set
of unlabeled images in the general domain to train a text-to-image generator.
Specifically, given an image without text labels, we first extract the
embedding of the image in the united language-vision embedding space with the
image encoder of CLIP. Next, we convert the image into a sequence of discrete
tokens in the VQGAN codebook space (the VQGAN model can be trained with the
unlabeled image dataset in hand). Finally, we train an autoregressive
transformer that maps the image tokens from its unified language-vision
representation. Once trained, the transformer can generate coherent image
tokens based on the text embedding extracted from the text encoder of CLIP upon
an input text. Such a strategy enables us to train a strong and general
text-to-image generator with large text-free image dataset such as ImageNet.
Qualitative and quantitative evaluations verify that our method significantly
outperforms optimization-based text-to-image methods in terms of image quality
while not compromising the text-image matching. Our method can even achieve
comparable performance as flagship supervised models like CogView.
- Abstract(参考訳): 一般的なドメイン(dall.e、cogviewなど)でテキストから画像へのジェネレータをトレーニングするには、膨大な量のペアのテキスト画像データが必要です。
本稿では,事前学習したCLIPモデルを用いて,言語画像の事前生成を行うための,CLIP-GENと呼ばれる自己教師型スキームを提案する。
私たちのアプローチでは、テキストから画像へのジェネレータをトレーニングするために、一般的なドメイン内のラベルのないイメージセットのみが必要です。
具体的には、テキストラベルのない画像に対して、まずCLIPのイメージエンコーダを用いて、統一言語ビジョン埋め込み空間における画像の埋め込みを抽出する。
次に、VQGAN符号ブック空間の離散トークン列に変換する(VQGANモデルは、ラベルのない画像データセットを手動でトレーニングすることができる)。
最後に、画像トークンを統一された言語ビジョン表現からマッピングする自己回帰トランスフォーマをトレーニングする。
トレーニング後、CLIPのテキストエンコーダから抽出されたテキスト埋め込みに基づいて、入力テキストに基づいてコヒーレントな画像トークンを生成することができる。
このような戦略により、imagenetのような大きなテキストフリーなイメージデータセットで、強力で一般的なテキストから画像へのジェネレータをトレーニングできます。
定性的および定量的評価により,本手法は画像品質の観点から最適化ベースのテキスト・画像法を著しく上回り,テキスト・画像マッチングを損なわないことを確認した。
私たちのメソッドは、CogViewのようなフラッグシップ教師付きモデルと同等のパフォーマンスを達成できます。
関連論文リスト
- CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。