論文の概要: ContraCLIP: Interpretable GAN generation driven by pairs of contrasting
sentences
- arxiv url: http://arxiv.org/abs/2206.02104v1
- Date: Sun, 5 Jun 2022 06:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:20:49.882711
- Title: ContraCLIP: Interpretable GAN generation driven by pairs of contrasting
sentences
- Title(参考訳): contraclip: コントラスト文のペアによる解釈可能なgan生成
- Authors: Christos Tzelepis, James Oldfield, Georgios Tzimiropoulos, Ioannis
Patras
- Abstract要約: 事前学習されたGANの潜在空間における非線形解釈パスをモデルに依存しない方法で発見する。
視覚言語埋め込み空間において、所望の経路に沿って変化を起こす経路を探索する目的を定義することにより、基礎となる生成因子を直感的に制御する方法を提供する。
- 参考スコア(独自算出の注目度): 45.06326873752593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of discovering non-linear interpretable paths
in the latent space of pre-trained GANs in a model-agnostic manner. In the
proposed method, the discovery is driven by a set of pairs of natural language
sentences with contrasting semantics, named semantic dipoles, that serve as the
limits of the interpretation that we require by the trainable latent paths to
encode. By using the pre-trained CLIP encoder, the sentences are projected into
the vision-language space, where they serve as dipoles, and where RBF-based
warping functions define a set of non-linear directional paths, one for each
semantic dipole, allowing in this way traversals from one semantic pole to the
other. By defining an objective that discovers paths in the latent space of
GANs that generate changes along the desired paths in the vision-language
embedding space, we provide an intuitive way of controlling the underlying
generative factors and address some of the limitations of the state-of-the-art
works, namely, that a) they are typically tailored to specific GAN
architectures (i.e., StyleGAN), b) they disregard the relative position of the
manipulated and the original image in the image embedding and the relative
position of the image and the text embeddings, and c) they lead to abrupt image
manipulations and quickly arrive at regions of low density and, thus, low image
quality, providing limited control of the generative factors. We provide
extensive qualitative and quantitative results that demonstrate our claims with
two pre-trained GANs, and make the code and the pre-trained models publicly
available at: https://github.com/chi0tzp/ContraCLIP
- Abstract(参考訳): この研究は、事前学習されたGANの潜在空間における非線形解釈パスをモデルに依存しない方法で発見する問題に対処する。
提案手法では,学習可能な潜在パスの符号化に必要な解釈の限界として機能するセマンティックダイポールという,対照的なセマンティックスを持つ自然言語文の組によって,この発見を駆動する。
事前訓練されたCLIPエンコーダを使用することで、文は視覚言語空間に投影され、ダイポールとして機能し、RBFベースのワープ関数は、各セマンティックダイポールに対して1つの非線形方向パスを定義する。
視覚言語埋め込み空間における所望の経路に沿って変化を起こすGANの潜伏空間の経路を発見する目的を定義することによって、基礎となる生成因子を制御し、最先端の作業の限界に対処する直感的な方法を提供する。
a) それらは典型的には特定のGANアーキテクチャ(すなわちStyleGAN)に適合する。
b) 画像埋め込みにおける操作対象の相対位置及び原画像の相対位置及び画像の相対位置及びテキスト埋め込みを無視する。
c) 急激な画像操作を誘導し、低密度の領域に迅速に到達し、画像品質が低く、生成因子の限定的な制御を提供する。
私たちは、2つの事前訓練されたganでクレームを実証する広範囲な質的、定量的な結果を提供し、コードと事前訓練済みモデルを以下の形で公開しています。
関連論文リスト
- Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models [21.173910627285338]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - Exploring Gradient-based Multi-directional Controls in GANs [19.950198707910587]
本稿では, 非線形制御の発見手法を提案する。
提案手法は,多方向・多方向特性の多種多様な属性に対してきめ細かな制御が可能であり,現状の手法よりもはるかに優れた非絡み合いを実現する能力を示す。
論文 参考訳(メタデータ) (2022-09-01T19:10:26Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - WarpedGANSpace: Finding non-linear RBF paths in GAN latent space [44.7091944340362]
この研究は、事前訓練されたGANの潜在空間における解釈可能な経路を、教師なしの方法で発見する問題に対処する。
我々は、RBFベースの潜時空間ワープ関数の集合によってパラメトリズされた潜時空間上の非線形ワープを学習する。
本手法の特殊な場合として線形経路を導出できることを示すとともに, 遅延空間における非線形経路が画像空間におけるより急勾配, ゆがみ, 解釈可能な変化をもたらすことを実験的に示す。
論文 参考訳(メタデータ) (2021-09-27T21:29:35Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。