Fugu-MT 論文翻訳(概要): CLIP2GAN: Towards Bridging Text with the Latent Space of GANs

論文の概要: CLIP2GAN: Towards Bridging Text with the Latent Space of GANs

arxiv url: http://arxiv.org/abs/2211.15045v1
Date: Mon, 28 Nov 2022 04:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 18:41:37.152522
Title: CLIP2GAN: Towards Bridging Text with the Latent Space of GANs
Title（参考訳）: CLIP2GAN: GANの潜在空間でテキストをブリッジする
Authors: Yixuan Wang, Wengang Zhou, Jianmin Bao, Weilun Wang, Li Li, Houqiang Li
Abstract要約: 本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。 CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
参考スコア（独自算出の注目度）: 128.47600914674985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we are dedicated to text-guided image generation and propose a novel framework, i.e., CLIP2GAN, by leveraging CLIP model and StyleGAN. The key idea of our CLIP2GAN is to bridge the output feature embedding space of CLIP and the input latent space of StyleGAN, which is realized by introducing a mapping network. In the training stage, we encode an image with CLIP and map the output feature to a latent code, which is further used to reconstruct the image. In this way, the mapping network is optimized in a self-supervised learning way. In the inference stage, since CLIP can embed both image and text into a shared feature embedding space, we replace CLIP image encoder in the training architecture with CLIP text encoder, while keeping the following mapping network as well as StyleGAN model. As a result, we can flexibly input a text description to generate an image. Moreover, by simply adding mapped text features of an attribute to a mapped CLIP image feature, we can effectively edit the attribute to the image. Extensive experiments demonstrate the superior performance of our proposed CLIP2GAN compared to previous methods.
Abstract（参考訳）: 本稿では,CLIPモデルとStyleGANを活用して,テキスト誘導画像生成に特化して,CLIP2GANという新しいフレームワークを提案する。 CLIP2GANのキーとなる考え方は、CLIPの出力特徴埋め込み空間とStyleGANの入力潜在空間をブリッジすることであり、マッピングネットワークを導入して実現している。トレーニング段階では、画像をクリップでエンコードし、出力機能を潜在コードにマップし、さらに画像の再構築に使用する。このように、マッピングネットワークは自己教師付き学習方法で最適化される。推論段階では、CLIPは画像とテキストの両方を共有機能埋め込みスペースに埋め込むことができるため、トレーニングアーキテクチャにおけるCLIPイメージエンコーダをCLIPテキストエンコーダに置き換えると同時に、以下のマッピングネットワークとStyleGANモデルを保持する。その結果、テキスト記述を柔軟に入力して画像を生成することができる。さらに、地図化されたCLIP画像機能に属性のマッピングされたテキスト機能を追加するだけで、画像に対する属性を効果的に編集できる。提案したCLIP2GANは,従来の方法に比べて優れた性能を示した。

関連論文リスト

Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。 SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2024-07-24T03:45:35Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。 CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文参考訳（メタデータ） (2023-08-23T10:25:37Z)
Robust Text-driven Image Editing Method that Adaptively Explores Directions in Latent Spaces of StyleGAN and CLIP [10.187432367590201]
テキスト駆動画像編集における先駆的な作業であるStyleCLIPは、CLIP空間の編集方向を見つけ、その方向をStyleGAN空間にマッピングすることで画像を編集する。同時に、原画像以外の適切な入力と、画像編集のためのテキスト命令を調整することは困難である。本稿では,SVMを用いてStyleGANとCLIP空間の編集方向を適応的に構築する手法を提案する。
論文参考訳（メタデータ） (2023-04-03T13:30:48Z)
Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。 PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文参考訳（メタデータ） (2022-12-09T17:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。