論文の概要: Generating images from caption and vice versa via CLIP-Guided Generative
Latent Space Search
- arxiv url: http://arxiv.org/abs/2102.01645v2
- Date: Wed, 3 Feb 2021 12:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 12:54:08.078004
- Title: Generating images from caption and vice versa via CLIP-Guided Generative
Latent Space Search
- Title(参考訳): CLIP-Guided Generative Latent Space Search によるキャプションからの画像生成とその逆
- Authors: Federico A. Galatolo and Mario G.C.A. Cimino and Gigliola Vaglini
- Abstract要約: 与えられたキャプション(または画像)に対応する画像を生成する新しいフレームワークであるGLaSSを提案する。
GLaSSは、画像と記述キャプションが同様の埋め込みを提供するCLIPニューラルネットワークに基づいている。
この最適な画像(またはキャプション)は、遺伝的アルゴリズムによる探索の後、生成ネットワークを介して生成される。
- 参考スコア(独自算出の注目度): 3.3873189602219114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this research work we present GLaSS, a novel zero-shot framework to
generate an image(or a caption) corresponding to a given caption(or image).
GLaSS is based on the CLIP neural network which given an image and a
descriptive caption provides similar embeddings. Differently, GLaSS takes a
caption (or an image) as an input, and generates the image (or the caption)
whose CLIP embedding is most similar to the input one. This optimal image (or
caption) is produced via a generative network after an exploration by a genetic
algorithm. Promising results are shown, based on the experimentation of the
image generators BigGAN and StyleGAN2, and of the text generator GPT2.
- Abstract(参考訳): 本研究では,与えられたキャプション(または画像)に対応する画像(またはキャプション)を生成する新しいゼロショットフレームワークであるGLaSSを提案する。
GLaSSは、画像と記述キャプションが同様の埋め込みを提供するCLIPニューラルネットワークに基づいている。
別として、GLaSSは入力としてキャプション(または画像)を取り、CLIP埋め込みが入力に最も近い画像(またはキャプション)を生成します。
この最適な画像(またはキャプション)は、遺伝的アルゴリズムによる探索後に生成ネットワークを介して生成される。
画像生成器BigGANおよびStyleGAN2の実験とテキスト生成器GPT2の実験に基づいて、推定結果を示す。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。