論文の概要: VTAE: Variational Transformer Autoencoder with Manifolds Learning
- arxiv url: http://arxiv.org/abs/2304.00948v1
- Date: Mon, 3 Apr 2023 13:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:30:38.870602
- Title: VTAE: Variational Transformer Autoencoder with Manifolds Learning
- Title(参考訳): VTAE:マニフォールド学習を用いた変分変換器オートエンコーダ
- Authors: Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Dacheng Tao,
Xuelong Li
- Abstract要約: 深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 144.0546653941249
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep generative models have demonstrated successful applications in learning
non-linear data distributions through a number of latent variables and these
models use a nonlinear function (generator) to map latent samples into the data
space. On the other hand, the nonlinearity of the generator implies that the
latent space shows an unsatisfactory projection of the data space, which
results in poor representation learning. This weak projection, however, can be
addressed by a Riemannian metric, and we show that geodesics computation and
accurate interpolations between data samples on the Riemannian manifold can
substantially improve the performance of deep generative models. In this paper,
a Variational spatial-Transformer AutoEncoder (VTAE) is proposed to minimize
geodesics on a Riemannian manifold and improve representation learning. In
particular, we carefully design the variational autoencoder with an encoded
spatial-Transformer to explicitly expand the latent variable model to data on a
Riemannian manifold, and obtain global context modelling. Moreover, to have
smooth and plausible interpolations while traversing between two different
objects' latent representations, we propose a geodesic interpolation network
different from the existing models that use linear interpolation with inferior
performance. Experiments on benchmarks show that our proposed model can improve
predictive accuracy and versatility over a range of computer vision tasks,
including image interpolations, and reconstructions.
- Abstract(参考訳): 深層生成モデルは、複数の潜伏変数を通して非線形データ分布を学習する成功例を示し、これらのモデルは潜伏サンプルをデータ空間にマッピングするために非線形関数(ジェネレータ)を使用する。
一方、ジェネレータの非線形性は、潜在空間がデータ空間の不満足な投影を示し、表現学習が不十分であることを意味する。
しかし、この弱射影はリーマン計量によって対処することができ、リーマン多様体上のデータサンプル間の測地計算と正確な補間が、深い生成モデルの性能を大幅に改善できることを示す。
本稿では、リーマン多様体上の測地線を最小化し、表現学習を改善するために、変分空間変換オートエンコーダ(VTAE)を提案する。
特に,空間変換器を符号化した変分オートエンコーダを慎重に設計し,潜在変数モデルをリーマン多様体上のデータに明示的に拡張し,大域的文脈モデリングを実現する。
さらに, 2つの異なる対象の潜在表現間を横断しながら, 滑らかで妥当な補間を行うため, 性能の劣る線形補間を用いる既存モデルとは異なる測地補間ネットワークを提案する。
ベンチマーク実験により,画像補間や再構成を含む様々なコンピュータビジョンタスクに対して,提案モデルにより予測精度と汎用性を向上できることが示された。
関連論文リスト
- Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Subsurface Characterization using Ensemble-based Approaches with Deep
Generative Models [2.184775414778289]
逆モデリングは、計算コストとスパースデータセットによる予測精度の低下により、不適切な高次元アプリケーションに限られる。
Wasserstein Geneversarative Adrial Network と Gradient Penalty (WGAN-GP) と Ensemble Smoother を多重データ同化 (ES-MDA) と組み合わせる。
WGAN-GPは低次元の潜伏空間から高次元K場を生成するために訓練され、ES-MDAは利用可能な測定値を同化することにより潜伏変数を更新する。
論文 参考訳(メタデータ) (2023-10-02T01:27:10Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Flow-based Generative Models for Learning Manifold to Manifold Mappings [39.60406116984869]
本稿では,フローベース生成モデルに類似した,多様体値データに対する可逆層を3種類導入する。
配向分布関数の分野の脳画像を確実にかつ正確に再構築できる有望な結果を示します。
論文 参考訳(メタデータ) (2020-12-18T02:19:18Z) - Variational Autoencoder with Learned Latent Structure [4.41370484305827]
学習潜在構造を持つ変分オートエンコーダ(VAELLS)について紹介する。
VAELLS は、学習可能な多様体モデルを VAE の潜在空間に組み込む。
我々は、既知の潜在構造を持つ実例でモデルを検証し、実世界のデータセット上でその能力を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。