Fugu-MT 論文翻訳(概要): Disentangling Variational Autoencoders

論文の概要: Disentangling Variational Autoencoders

arxiv url: http://arxiv.org/abs/2211.07700v1
Date: Mon, 14 Nov 2022 19:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 13:52:51.652484
Title: Disentangling Variational Autoencoders
Title（参考訳）: 変分オートエンコーダ
Authors: Rafael Pastrana
Abstract要約: 変分オートエンコーダ(VAE)は、高次元データの入力セットを低次元の潜在空間に投影する。文献から3つの異なるVAEモデルを実装し、6万枚の手書き数字のデータセットでそれらをトレーニングする。本稿では,復号化画像の品質と遅延空間の歪みレベルとのトレードオフについて検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A variational autoencoder (VAE) is a probabilistic machine learning framework for posterior inference that projects an input set of high-dimensional data to a lower-dimensional, latent space. The latent space learned with a VAE offers exciting opportunities to develop new data-driven design processes in creative disciplines, in particular, to automate the generation of multiple novel designs that are aesthetically reminiscent of the input data but that were unseen during training. However, the learned latent space is typically disorganized and entangled: traversing the latent space along a single dimension does not result in changes to single visual attributes of the data. The lack of latent structure impedes designers from deliberately controlling the visual attributes of new designs generated from the latent space. This paper presents an experimental study that investigates latent space disentanglement. We implement three different VAE models from the literature and train them on a publicly available dataset of 60,000 images of hand-written digits. We perform a sensitivity analysis to find a small number of latent dimensions necessary to maximize a lower bound to the log marginal likelihood of the data. Furthermore, we investigate the trade-offs between the quality of the reconstruction of the decoded images and the level of disentanglement of the latent space. We are able to automatically align three latent dimensions with three interpretable visual properties of the digits: line weight, tilt and width. Our experiments suggest that i) increasing the contribution of the Kullback-Leibler divergence between the prior over the latents and the variational distribution to the evidence lower bound, and ii) conditioning input image class enhances the learning of a disentangled latent space with a VAE.
Abstract（参考訳）: 可変オートエンコーダ(VAE)は、低次元の潜在空間に高次元データの入力セットを投影する後方推論のための確率論的機械学習フレームワークである。 vaeで学んだ潜在性は、創造的な分野において新しいデータ駆動設計プロセスを開発するエキサイティングな機会を提供します。しかし、学習された潜伏空間は典型的には分解され、絡み合わされ、単一の次元に沿って潜伏空間を横切ると、データの単一の視覚特性が変化しない。潜在構造が欠如していることは、潜在空間から生成される新しいデザインの視覚的属性を故意に制御することを妨げる。本稿では,潜伏空間の絡み合いを実験的に検討する。文献から3つの異なるVAEモデルを実装し、手書き桁の6万の画像のデータセットでそれらをトレーニングする。本研究では,データのログ周縁確率に対する下限を最大化するために,少数の潜在次元を求めるための感度解析を行う。さらに,復号画像の復元品質と潜在空間の絡み合いの程度とのトレードオフについて検討した。線形重み、傾き、幅の3つの解釈可能な視覚特性で、3つの潜在次元を自動的に整列することができる。私たちの実験は一潜伏者に対する先行者間のクルバック・リーブラー分岐の寄与の増大及び証拠の低限界に対する変動分布二条件入力画像クラスは、VAEによる非絡み合った潜伏空間の学習を強化する。

関連論文リスト

Rethinking VAE: From Continuous to Discrete Representations Without Probabilistic Assumptions [0.0]
本研究では,変分オートエンコーダ(VAE)とベクトル量子変分オートエンコーダ(VQ-VAE)の相互接続を,再構成トレーニングフレームワークを通じて確立する。本稿では,クラスタリングセンターを導入し,データのコンパクト性を高め,適切に定義された潜在空間を確保することを目的とした,VAEライクなトレーニング手法を提案する。 MNIST、CelebA、FashionMNISTのデータセットの実験結果は、滑らかな補間遷移を示すが、曖昧さは持続する。
論文参考訳（メタデータ） (2025-07-23T06:52:00Z)
Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
論文参考訳（メタデータ） (2025-03-07T09:51:56Z)
Exploring the latent space of diffusion models directly through singular value decomposition [31.900933527692846]
拡散モデルにおけるテキストプロンプトによって決定される1組の潜在符号から任意の属性を学習できる新しい画像編集フレームワークを提案する。この分野のさらなる研究と応用を促進するため、まもなくコードをリリースします。
論文参考訳（メタデータ） (2025-02-04T11:04:36Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文参考訳（メタデータ） (2023-09-18T12:36:39Z)
VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-04-03T13:13:19Z)
Holographic-(V)AE: an end-to-end SO(3)-Equivariant (Variational) Autoencoder in Fourier Space [0.0]
グループ同変ニューラルネットワークは、分類と回帰タスクを解決するためのデータ効率のよいアプローチとして登場した。本稿では,Fourier空間におけるホログラフィックオートエンコーダについて述べる。学習した潜在空間は、球面画像の分類的特徴を効率的に符号化する。
論文参考訳（メタデータ） (2022-09-30T16:25:20Z)
Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。情報不足と後部崩壊という2つの課題に悩まされている。本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文参考訳（メタデータ） (2021-06-16T06:36:26Z)
Evidential Sparsification of Multimodal Latent Spaces in Conditional Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2020-10-19T01:27:21Z)
IntroVAC: Introspective Variational Classifiers for Learning Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。 IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文参考訳（メタデータ） (2020-08-03T10:21:41Z)
PCAAE: Principal Component Analysis Autoencoder for organising the latent space of generative networks [0.0]
潜在空間が2つの性質を検証できる新しいオートエンコーダを提案する。潜在空間の成分は統計的に独立である。形状の合成例と最先端のGANについて結果を示す。
論文参考訳（メタデータ） (2020-06-14T07:40:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。