論文の概要: Disentangling Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2211.07700v1
- Date: Mon, 14 Nov 2022 19:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:52:51.652484
- Title: Disentangling Variational Autoencoders
- Title(参考訳): 変分オートエンコーダ
- Authors: Rafael Pastrana
- Abstract要約: 変分オートエンコーダ(VAE)は、高次元データの入力セットを低次元の潜在空間に投影する。
文献から3つの異なるVAEモデルを実装し、6万枚の手書き数字のデータセットでそれらをトレーニングする。
本稿では,復号化画像の品質と遅延空間の歪みレベルとのトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A variational autoencoder (VAE) is a probabilistic machine learning framework
for posterior inference that projects an input set of high-dimensional data to
a lower-dimensional, latent space. The latent space learned with a VAE offers
exciting opportunities to develop new data-driven design processes in creative
disciplines, in particular, to automate the generation of multiple novel
designs that are aesthetically reminiscent of the input data but that were
unseen during training. However, the learned latent space is typically
disorganized and entangled: traversing the latent space along a single
dimension does not result in changes to single visual attributes of the data.
The lack of latent structure impedes designers from deliberately controlling
the visual attributes of new designs generated from the latent space. This
paper presents an experimental study that investigates latent space
disentanglement. We implement three different VAE models from the literature
and train them on a publicly available dataset of 60,000 images of hand-written
digits. We perform a sensitivity analysis to find a small number of latent
dimensions necessary to maximize a lower bound to the log marginal likelihood
of the data. Furthermore, we investigate the trade-offs between the quality of
the reconstruction of the decoded images and the level of disentanglement of
the latent space. We are able to automatically align three latent dimensions
with three interpretable visual properties of the digits: line weight, tilt and
width. Our experiments suggest that i) increasing the contribution of the
Kullback-Leibler divergence between the prior over the latents and the
variational distribution to the evidence lower bound, and ii) conditioning
input image class enhances the learning of a disentangled latent space with a
VAE.
- Abstract(参考訳): 可変オートエンコーダ(VAE)は、低次元の潜在空間に高次元データの入力セットを投影する後方推論のための確率論的機械学習フレームワークである。
vaeで学んだ潜在性は、創造的な分野において新しいデータ駆動設計プロセスを開発するエキサイティングな機会を提供します。
しかし、学習された潜伏空間は典型的には分解され、絡み合わされ、単一の次元に沿って潜伏空間を横切ると、データの単一の視覚特性が変化しない。
潜在構造が欠如していることは、潜在空間から生成される新しいデザインの視覚的属性を故意に制御することを妨げる。
本稿では,潜伏空間の絡み合いを実験的に検討する。
文献から3つの異なるVAEモデルを実装し、手書き桁の6万の画像のデータセットでそれらをトレーニングする。
本研究では,データのログ周縁確率に対する下限を最大化するために,少数の潜在次元を求めるための感度解析を行う。
さらに,復号画像の復元品質と潜在空間の絡み合いの程度とのトレードオフについて検討した。
線形重み、傾き、幅の3つの解釈可能な視覚特性で、3つの潜在次元を自動的に整列することができる。
私たちの実験は
一 潜伏者に対する先行者間のクルバック・リーブラー分岐の寄与の増大及び証拠の低限界に対する変動分布
二 条件入力画像クラスは、VAEによる非絡み合った潜伏空間の学習を強化する。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Holographic-(V)AE: an end-to-end SO(3)-Equivariant (Variational)
Autoencoder in Fourier Space [0.0]
グループ同変ニューラルネットワークは、分類と回帰タスクを解決するためのデータ効率のよいアプローチとして登場した。
本稿では,Fourier空間におけるホログラフィックオートエンコーダについて述べる。
学習した潜在空間は、球面画像の分類的特徴を効率的に符号化する。
論文 参考訳(メタデータ) (2022-09-30T16:25:20Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - PCAAE: Principal Component Analysis Autoencoder for organising the
latent space of generative networks [0.0]
潜在空間が2つの性質を検証できる新しいオートエンコーダを提案する。
潜在空間の成分は統計的に独立である。
形状の合成例と最先端のGANについて結果を示す。
論文 参考訳(メタデータ) (2020-06-14T07:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。