論文の概要: Geometry-Preserving Encoder/Decoder in Latent Generative Models
- arxiv url: http://arxiv.org/abs/2501.09876v1
- Date: Thu, 16 Jan 2025 23:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:42.877304
- Title: Geometry-Preserving Encoder/Decoder in Latent Generative Models
- Title(参考訳): 潜在生成モデルにおける幾何保存エンコーダ/デコーダ
- Authors: Wonjun Lee, Riley C. W. O'Neill, Dongmian Zou, Jeff Calder, Gilad Lerman,
- Abstract要約: 本稿では,VAEと異なる理論的特性を持つ新しいエンコーダ/デコーダフレームワークを提案する。
エンコーダとデコーダの両方のトレーニングプロセスにおいて,この幾何保存エンコーダの重要な利点を示す。
- 参考スコア(独自算出の注目度): 13.703752179071333
- License:
- Abstract: Generative modeling aims to generate new data samples that resemble a given dataset, with diffusion models recently becoming the most popular generative model. One of the main challenges of diffusion models is solving the problem in the input space, which tends to be very high-dimensional. Recently, solving diffusion models in the latent space through an encoder that maps from the data space to a lower-dimensional latent space has been considered to make the training process more efficient and has shown state-of-the-art results. The variational autoencoder (VAE) is the most commonly used encoder/decoder framework in this domain, known for its ability to learn latent representations and generate data samples. In this paper, we introduce a novel encoder/decoder framework with theoretical properties distinct from those of the VAE, specifically designed to preserve the geometric structure of the data distribution. We demonstrate the significant advantages of this geometry-preserving encoder in the training process of both the encoder and decoder. Additionally, we provide theoretical results proving convergence of the training process, including convergence guarantees for encoder training, and results showing faster convergence of decoder training when using the geometry-preserving encoder.
- Abstract(参考訳): 生成モデリングは、与えられたデータセットに似た新しいデータサンプルを生成することを目的としており、拡散モデルは近年最も人気のある生成モデルとなっている。
拡散モデルの主な課題の1つは、非常に高次元である傾向がある入力空間の問題を解くことである。
近年,データ空間から低次元の潜伏空間にマッピングするエンコーダを用いて潜伏空間の拡散モデルを解くことにより,トレーニングプロセスの効率化が図られ,最先端の結果が示されている。
変分オートエンコーダ(VAE)は、このドメインで最も一般的に使われているエンコーダ/デコーダフレームワークであり、潜在表現を学習し、データサンプルを生成する能力で知られている。
本稿では,データ分布の幾何学的構造を具体的に保持するために,VAEと異なる理論的特性を持つ新しいエンコーダ/デコーダフレームワークを提案する。
エンコーダとデコーダの両方のトレーニングプロセスにおいて,この幾何保存エンコーダの重要な利点を示す。
さらに、エンコーダトレーニングの収束保証を含むトレーニングプロセスの収束を示す理論的結果と、ジオメトリ保存エンコーダを使用する場合のデコーダトレーニングの収束の高速化を示す結果を提供する。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Learning Nonparametric High-Dimensional Generative Models: The
Empirical-Beta-Copula Autoencoder [1.5714999163044752]
自動エンコーダの潜伏空間を、サンプルが得られる分布でモデル化する必要がある。
本研究の目的は,潜伏空間を捕捉する様々な手法を議論し,評価し,比較することである。
論文 参考訳(メタデータ) (2023-09-18T16:29:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Hierarchical Attention Encoder Decoder [2.4366811507669115]
自己回帰モデリングは、多くの実世界の応用を持つ複雑で斬新なシーケンスを生成することができる。
これらのモデルはアウトプットを自動回帰的に生成しなければなりません。
階層型リカレントデコーダアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2023-06-01T18:17:23Z) - Benign Autoencoders [0.0]
我々は最適なエンコーダとデコーダのペアを見つける問題を定式化し、その解を「良性オートエンコーダ」(BAE)と呼ぶ。
我々は、BAEが生成問題の最適圧縮性次元である多様体にデータを投影することを証明した。
実例として,分散シフト下での識別器の性能を向上させるために,BAEが最適で低次元の潜在表現を見出す方法を示す。
論文 参考訳(メタデータ) (2022-10-02T21:36:27Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Encoded Prior Sliced Wasserstein AutoEncoder for learning latent
manifold representations [0.7614628596146599]
本稿では,Encoded Prior Sliced Wasserstein AutoEncoderを紹介する。
追加のプリエンコーダネットワークは、データ多様体の埋め込みを学習する。
従来のオートエンコーダとは違って,前者はデータの基盤となる幾何を符号化する。
論文 参考訳(メタデータ) (2020-10-02T14:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。