論文の概要: Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need
- arxiv url: http://arxiv.org/abs/2102.10543v1
- Date: Sun, 21 Feb 2021 08:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:25:40.885994
- Title: Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need
- Title(参考訳): 生成モデルは絡み合いを知っているか?
コントラスト学習は必要なだけ
- Authors: Xuanchi Ren, Tao Yang, Yuwang Wang, Wenjun Zeng
- Abstract要約: 本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
- 参考スコア(独自算出の注目度): 59.033559925639075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangled generative models are typically trained with an extra
regularization term, which encourages the traversal of each latent factor to
make a distinct and independent change at the cost of generation quality. When
traversing the latent space of generative models trained without the
disentanglement term, the generated samples show semantically meaningful
change, raising the question: do generative models know disentanglement? We
propose an unsupervised and model-agnostic method: Disentanglement via Contrast
(DisCo) in the Variation Space. DisCo consists of: (i) a Navigator providing
traversal directions in the latent space, and (ii) a $\Delta$-Contrastor
composed of two shared-weight Encoders, which encode image pairs along these
directions to disentangled representations respectively, and a difference
operator to map the encoded representations to the Variation Space. We propose
two more key techniques for DisCo: entropy-based domination loss to make the
encoded representations more disentangled and the strategy of flipping hard
negatives to address directions with the same semantic meaning. By optimizing
the Navigator to discover disentangled directions in the latent space and
Encoders to extract disentangled representations from images with Contrastive
Learning, DisCo achieves the state-of-the-art disentanglement given pretrained
non-disentangled generative models, including GAN, VAE, and Flow. Project page
at https://github.com/xrenaa/DisCo.
- Abstract(参考訳): 不連続生成モデルは典型的には余分な正規化項で訓練されるが、これは各潜在因子が世代品質のコストで個別で独立した変化を起こすことを奨励する。
離散項なしで訓練された生成モデルの潜在空間を横断するとき、生成されたサンプルは意味的に意味のある変化を示し、疑問を提起する。
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
ディスコは、 (i) 潜在空間で横断方向を提供するナビゲータと、 (ii) 2つの共有重みエンコーダからなる$\delta$-contrastorと、これらの方向に沿って画像ペアをそれぞれ不等角表現にエンコードし、エンコードされた表現を変分空間にマッピングする差分演算子からなる。
エントロピーに基づくエンコード表現をよりアンタングルにするための支配損失と、同じ意味を持つ方向に対応するためにハードネガティブを反転させる戦略の2つの重要な手法を提案する。
DisCoは、ナビゲーターを最適化して潜時空間の偏角方向を発見し、エンコーダはコントラスト学習で画像から偏角表現を抽出し、GAN、VAE、フローを含む事前訓練された非偏角生成モデルに与えられた最先端の離角化を実現します。
Project page at https://github.com/xrenaa/DisCo.com
関連論文リスト
- Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - The Transitive Information Theory and its Application to Deep Generative
Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。
既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。
一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文 参考訳(メタデータ) (2022-03-09T22:35:02Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。