論文の概要: Text-Free Learning of a Natural Language Interface for Pretrained Face
Generators
- arxiv url: http://arxiv.org/abs/2209.03953v1
- Date: Thu, 8 Sep 2022 17:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:43:22.219067
- Title: Text-Free Learning of a Natural Language Interface for Pretrained Face
Generators
- Title(参考訳): 予習顔生成のための自然言語インタフェースのテキストフリー学習
- Authors: Xiaodan Du, Raymond A. Yeh, Nicholas Kolkin, Eli Shechtman, Greg
Shakhnarovich
- Abstract要約: 我々は,テキスト誘導型人顔合成に事前学習されたGANを適応させる自然言語インタフェースであるFast text2StyleGANを提案する。
我々のモデルは、新しいテキストプロンプトに遭遇する際に、GANやCLIPの再学習や微調整を必要としない。
- 参考スコア(独自算出の注目度): 39.60881623602501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Fast text2StyleGAN, a natural language interface that adapts
pre-trained GANs for text-guided human face synthesis. Leveraging the recent
advances in Contrastive Language-Image Pre-training (CLIP), no text data is
required during training. Fast text2StyleGAN is formulated as a conditional
variational autoencoder (CVAE) that provides extra control and diversity to the
generated images at test time. Our model does not require re-training or
fine-tuning of the GANs or CLIP when encountering new text prompts. In contrast
to prior work, we do not rely on optimization at test time, making our method
orders of magnitude faster than prior work. Empirically, on FFHQ dataset, our
method offers faster and more accurate generation of images from natural
language descriptions with varying levels of detail compared to prior work.
- Abstract(参考訳): 我々は,テキスト誘導型人顔合成に事前学習されたGANを適応させる自然言語インタフェースであるFast text2StyleGANを提案する。
Contrastive Language-Image Pre-training (CLIP)の最近の進歩を活用して、トレーニング中にテキストデータを必要としない。
Fast text2StyleGANは条件付き変分オートエンコーダ(CVAE)として定式化され、テスト時に生成された画像に余分な制御と多様性を提供する。
私たちのモデルは、新しいテキストプロンプトに遭遇するとき、ganやクリップの再トレーニングや微調整を必要としません。
以前の作業とは対照的に、テスト時の最適化には依存せず、以前の作業よりも桁違いに高速にメソッドを実行します。
実験的に、FFHQデータセット上で、我々の手法は、以前の作業と比べて様々なレベルの詳細を持つ自然言語記述から、より高速で正確な画像を生成する。
関連論文リスト
- ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。