論文の概要: FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN
Space Optimization
- arxiv url: http://arxiv.org/abs/2112.01573v1
- Date: Thu, 2 Dec 2021 19:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:04:29.478035
- Title: FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN
Space Optimization
- Title(参考訳): FuseDream: CLIP+GAN空間最適化を改良した無料テキスト画像生成
- Authors: Xingchao Liu, Chengyue Gong, Lemeng Wu, Shujian Zhang, Hao Su, Qiang
Liu
- Abstract要約: 我々は、リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることで、テキスト・ツー・イメージ生成にアプローチする。
異なる入力テキストによってプロモートされた場合、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには私たちが使用するトレーニングデータに現れない斬新な偽造概念を含む、高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 37.318948462348054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images from natural language instructions is an intriguing yet
highly challenging task. We approach text-to-image generation by combining the
power of the retrained CLIP representation with an off-the-shelf image
generator (GANs), optimizing in the latent space of GAN to find images that
achieve maximum CLIP score with the given input text. Compared to traditional
methods that train generative models from text to image starting from scratch,
the CLIP+GAN approach is training-free, zero shot and can be easily customized
with different generators.
However, optimizing CLIP score in the GAN space casts a highly challenging
optimization problem and off-the-shelf optimizers such as Adam fail to yield
satisfying results. In this work, we propose a FuseDream pipeline, which
improves the CLIP+GAN approach with three key techniques: 1) an AugCLIP score
which robustifies the CLIP objective by introducing random augmentation on
image. 2) a novel initialization and over-parameterization strategy for
optimization which allows us to efficiently navigate the non-convex landscape
in GAN space. 3) a composed generation technique which, by leveraging a novel
bi-level optimization formulation, can compose multiple images to extend the
GAN space and overcome the data-bias.
When promoted by different input text, FuseDream can generate high-quality
images with varying objects, backgrounds, artistic styles, even novel
counterfactual concepts that do not appear in the training data of the GAN we
use. Quantitatively, the images generated by FuseDream yield top-level
Inception score and FID score on MS COCO dataset, without additional
architecture design or training. Our code is publicly available at
\url{https://github.com/gnobitab/FuseDream}.
- Abstract(参考訳): 自然言語命令から画像を生成することは興味深いが、非常に難しい作業である。
本稿では,リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることでテキスト・ツー・イメージ生成にアプローチし,GANの潜時空間を最適化し,与えられた入力テキストで最大CLIPスコアを達成する画像を求める。
テキストから画像への生成モデルをスクラッチからトレーニングする従来の方法と比較して、clip+ganアプローチはトレーニングフリーでゼロショットであり、異なるジェネレータで簡単にカスタマイズできる。
しかし、GAN空間におけるCLIPスコアの最適化は、非常に困難な最適化問題を招き、Adamのような既製のオプティマイザは満足な結果を得ることができない。
本稿では,クリップ+ganアプローチを3つの重要な手法で改善するfusedreamパイプラインを提案する。
1)AugCLIPスコアは、画像にランダムな拡張を導入することでCLIPの目的を確固たるものにする。
2) GAN空間の非凸景観を効率的にナビゲートできる最適化のための新しい初期化および過パラメータ化戦略を提案する。
3)新しい二値最適化定式化を利用することにより、gan空間を拡張しデータバイアスを克服するために複数の画像を構成することができる合成生成技術。
異なる入力テキストでプロモートすると、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには、私たちが使用しているGANのトレーニングデータに現れない斬新な偽造概念を含む高品質な画像を生成することができる。
FuseDreamが生成した画像は、アーキテクチャ設計やトレーニングを伴わずに、MS COCOデータセット上でトップレベルのインセプションスコアとFIDスコアを得る。
私たちのコードは \url{https://github.com/gnobitab/fusedream} で公開されている。
関連論文リスト
- Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis [74.71986888051381]
本稿では,高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するために,ジェネレーティブ・アドリラルCLIPを提案する。
本モデルは合成速度を120倍に向上し, GANからスムーズな潜伏空間を継承する。
論文 参考訳(メタデータ) (2023-01-30T14:58:23Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。