論文の概要: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
- arxiv url: http://arxiv.org/abs/2108.00946v1
- Date: Mon, 2 Aug 2021 14:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 18:51:52.581447
- Title: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
- Title(参考訳): StyleGAN-NADA:CLIP誘導画像生成領域適応
- Authors: Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or
- Abstract要約: 生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
- 参考スコア(独自算出の注目度): 63.85888518950824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a generative model be trained to produce images from a specific domain,
guided by a text prompt only, without seeing any image? In other words: can an
image generator be trained blindly? Leveraging the semantic power of large
scale Contrastive-Language-Image-Pre-training (CLIP) models, we present a
text-driven method that allows shifting a generative model to new domains,
without having to collect even a single image from those domains. We show that
through natural language prompts and a few minutes of training, our method can
adapt a generator across a multitude of domains characterized by diverse styles
and shapes. Notably, many of these modifications would be difficult or outright
impossible to reach with existing methods. We conduct an extensive set of
experiments and comparisons across a wide range of domains. These demonstrate
the effectiveness of our approach and show that our shifted models maintain the
latent-space properties that make generative models appealing for downstream
tasks.
- Abstract(参考訳): 生成モデルは、画像を見ることなく、テキストプロンプトのみに導かれ、特定のドメインから画像を生成するように訓練できるだろうか?
言い換えれば、画像生成器は盲目的に訓練できるのか?
大規模コントラスト言語-イメージ-プレトレーニング(clip)モデルのセマンティックパワーを活用して,生成モデルから新たなドメインへのシフトを可能にするテキスト駆動方式を提案する。
自然言語プロンプトと数分のトレーニングによって,多様なスタイルと形状を特徴とする多数のドメインにわたってジェネレータを適応させることができることを示す。
特に、これらの変更の多くは、既存のメソッドに到達するのが困難か、あるいは完全に不可能である。
幅広い領域にわたる広範な実験と比較を実施します。
これらの結果は,提案手法の有効性を示し,シフトモデルが潜在空間特性を保ち,下流タスクにアピールする生成モデルとなることを示す。
関連論文リスト
- Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Diffusion Guided Domain Adaptation of Image Generators [22.444668833151677]
分類器フリーガイダンスを批判として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。
ジェネレータは、ターゲットドメインからの基底サンプルにアクセスすることなく、テキストプロンプトによって示される新しいドメインに効率的に移動することができる。
CLIP損失を最小限に抑えるためにトレーニングされていないが、我々のモデルはCLIPスコアが等しく高く、FIDが短いプロンプトよりも大幅に低い。
論文 参考訳(メタデータ) (2022-12-08T18:46:19Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - Towards Diverse and Faithful One-shot Adaption of Generative Adversarial
Networks [54.80435295622583]
ワンショット生成ドメイン適応は、訓練済みのジェネレータを1つの参照画像のみを使用して、新しいドメインに転送することを目的としている。
本稿では、多種多様な世代と忠実な適応のための新しい一発生成ドメイン適応法、すなわち、DiFaを提案する。
論文 参考訳(メタデータ) (2022-07-18T16:29:41Z) - Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with
Learned Morph Maps [94.10535575563092]
本稿では,複数の関連ドメインから一貫した画像サンプルを同時に生成できる生成逆ネットワークを提案する。
各ドメインにまたがる共有特徴を学習するポリモルフィックGANと、各ドメインに応じて共有特徴を共有化するためのドメインごとのモルフィック層を提案する。
論文 参考訳(メタデータ) (2022-06-06T21:03:02Z) - Network-to-Network Translation with Conditional Invertible Neural
Networks [19.398202091883366]
最近の研究は、巨大な機械学習モデルのパワーが、彼らが学んだ表現によって捉えられていることを示唆している。
本研究では,異なる既存表現を関連付けることが可能なモデルを模索し,条件付き可逆ネットワークを用いてこの問題を解決することを提案する。
ドメイン転送ネットワークは、それらを学習したり微調整したりすることなく、固定表現を変換できます。
論文 参考訳(メタデータ) (2020-05-27T18:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。