論文の概要: CLIP2GAN: Towards Bridging Text with the Latent Space of GANs
- arxiv url: http://arxiv.org/abs/2211.15045v1
- Date: Mon, 28 Nov 2022 04:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:41:37.152522
- Title: CLIP2GAN: Towards Bridging Text with the Latent Space of GANs
- Title(参考訳): CLIP2GAN: GANの潜在空間でテキストをブリッジする
- Authors: Yixuan Wang, Wengang Zhou, Jianmin Bao, Weilun Wang, Li Li, Houqiang
Li
- Abstract要約: 本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
- 参考スコア(独自算出の注目度): 128.47600914674985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we are dedicated to text-guided image generation and propose a
novel framework, i.e., CLIP2GAN, by leveraging CLIP model and StyleGAN. The key
idea of our CLIP2GAN is to bridge the output feature embedding space of CLIP
and the input latent space of StyleGAN, which is realized by introducing a
mapping network. In the training stage, we encode an image with CLIP and map
the output feature to a latent code, which is further used to reconstruct the
image. In this way, the mapping network is optimized in a self-supervised
learning way. In the inference stage, since CLIP can embed both image and text
into a shared feature embedding space, we replace CLIP image encoder in the
training architecture with CLIP text encoder, while keeping the following
mapping network as well as StyleGAN model. As a result, we can flexibly input a
text description to generate an image. Moreover, by simply adding mapped text
features of an attribute to a mapped CLIP image feature, we can effectively
edit the attribute to the image. Extensive experiments demonstrate the superior
performance of our proposed CLIP2GAN compared to previous methods.
- Abstract(参考訳): 本稿では,CLIPモデルとStyleGANを活用して,テキスト誘導画像生成に特化して,CLIP2GANという新しいフレームワークを提案する。
CLIP2GANのキーとなる考え方は、CLIPの出力特徴埋め込み空間とStyleGANの入力潜在空間をブリッジすることであり、マッピングネットワークを導入して実現している。
トレーニング段階では、画像をクリップでエンコードし、出力機能を潜在コードにマップし、さらに画像の再構築に使用する。
このように、マッピングネットワークは自己教師付き学習方法で最適化される。
推論段階では、CLIPは画像とテキストの両方を共有機能埋め込みスペースに埋め込むことができるため、トレーニングアーキテクチャにおけるCLIPイメージエンコーダをCLIPテキストエンコーダに置き換えると同時に、以下のマッピングネットワークとStyleGANモデルを保持する。
その結果、テキスト記述を柔軟に入力して画像を生成することができる。
さらに、地図化されたCLIP画像機能に属性のマッピングされたテキスト機能を追加するだけで、画像に対する属性を効果的に編集できる。
提案したCLIP2GANは,従来の方法に比べて優れた性能を示した。
関連論文リスト
- Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Robust Text-driven Image Editing Method that Adaptively Explores
Directions in Latent Spaces of StyleGAN and CLIP [10.187432367590201]
テキスト駆動画像編集における先駆的な作業であるStyleCLIPは、CLIP空間の編集方向を見つけ、その方向をStyleGAN空間にマッピングすることで画像を編集する。
同時に、原画像以外の適切な入力と、画像編集のためのテキスト命令を調整することは困難である。
本稿では,SVMを用いてStyleGANとCLIP空間の編集方向を適応的に構築する手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T13:30:48Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。