論文の概要: Variational Distribution Learning for Unsupervised Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2303.16105v1
- Date: Tue, 28 Mar 2023 16:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:21:26.161236
- Title: Variational Distribution Learning for Unsupervised Text-to-Image
Generation
- Title(参考訳): 教師なしテキスト対画像生成のための変分分布学習
- Authors: Minsoo Kang, Doyup Lee, Jiseob Kim, Saehoon Kim, Bohyung Han
- Abstract要約: 本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
- 参考スコア(独自算出の注目度): 42.3246826401366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a text-to-image generation algorithm based on deep neural networks
when text captions for images are unavailable during training. In this work,
instead of simply generating pseudo-ground-truth sentences of training images
using existing image captioning methods, we employ a pretrained CLIP model,
which is capable of properly aligning embeddings of images and corresponding
texts in a joint space and, consequently, works well on zero-shot recognition
tasks. We optimize a text-to-image generation model by maximizing the data
log-likelihood conditioned on pairs of image-text CLIP embeddings. To better
align data in the two domains, we employ a principled way based on a
variational inference, which efficiently estimates an approximate posterior of
the hidden text embedding given an image and its CLIP feature. Experimental
results validate that the proposed framework outperforms existing approaches by
large margins under unsupervised and semi-supervised text-to-image generation
settings.
- Abstract(参考訳): 学習中に画像に対するテキストキャプションが利用できない場合,深層ニューラルネットワークに基づくテキスト対画像生成アルゴリズムを提案する。
本研究では,既存の画像キャプション法による訓練画像の擬似的地下構造文を生成する代わりに,画像と対応するテキストの結合空間への埋め込みを適切に調整し,ゼロショット認識タスクでうまく機能する,事前訓練されたCLIPモデルを用いる。
画像クリップ埋め込みのペアで条件付けられたデータログを最大化することにより,テキスト対画像生成モデルを最適化する。
2つの領域におけるデータの整合性を改善するために、画像とそのCLIP特徴を与えられた隠れテキストの近似後部を効率的に推定する変動推論に基づく原理的手法を用いる。
実験の結果,提案フレームワークは,教師なしおよび半教師なしテキストから画像への生成設定において,既存のアプローチを大きなマージンで上回っていることがわかった。
関連論文リスト
- Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - clip2latent: Text driven sampling of a pre-trained StyleGAN using
denoising diffusion and CLIP [1.3733526575192976]
事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。
外部データや微調整を必要とせずに、既存の生成モデルによるテキスト駆動サンプリングを可能にする。
CLIPのイメージとテキスト埋め込みのアライメントを活用して、条件付き拡散モデルをトレーニングするためのラベル付きデータを必要としないようにする。
論文 参考訳(メタデータ) (2022-10-05T15:49:41Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。