論文の概要: Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets
- arxiv url: http://arxiv.org/abs/2407.01718v1
- Date: Mon, 1 Jul 2024 18:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:32:46.342515
- Title: Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets
- Title(参考訳): 高次元データセットの非線形配向と結合埋め込みに対するエントロピー最適輸送固有写像
- Authors: Boris Landa, Yuval Kluger, Rong Ma,
- Abstract要約: 本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
- 参考スコア(独自算出の注目度): 11.105392318582677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding high-dimensional data into a low-dimensional space is an indispensable component of data analysis. In numerous applications, it is necessary to align and jointly embed multiple datasets from different studies or experimental conditions. Such datasets may share underlying structures of interest but exhibit individual distortions, resulting in misaligned embeddings using traditional techniques. In this work, we propose \textit{Entropic Optimal Transport (EOT) eigenmaps}, a principled approach for aligning and jointly embedding a pair of datasets with theoretical guarantees. Our approach leverages the leading singular vectors of the EOT plan matrix between two datasets to extract their shared underlying structure and align the datasets accordingly in a common embedding space. We interpret our approach as an inter-data variant of the classical Laplacian eigenmaps and diffusion maps embeddings, showing that it enjoys many favorable analogous properties. We then analyze a data-generative model where two observed high-dimensional datasets share latent variables on a common low-dimensional manifold, but each dataset is subject to data-specific translation, scaling, nuisance structures, and noise. We show that in a high-dimensional asymptotic regime, the EOT plan recovers the shared manifold structure by approximating a kernel function evaluated at the locations of the latent variables. Subsequently, we provide a geometric interpretation of our embedding by relating it to the eigenfunctions of population-level operators encoding the density and geometry of the shared manifold. Finally, we showcase the performance of our approach for data integration and embedding through simulations and analyses of real-world biological data, demonstrating its advantages over alternative methods in challenging scenarios.
- Abstract(参考訳): 高次元データを低次元空間に埋め込むことは、データ解析の必須要素である。
多くの応用において、異なる研究や実験条件から複数のデータセットを調整し、共同で埋め込む必要がある。
このようなデータセットは、基本的な関心構造を共有することができるが、個々の歪みを示すため、従来の手法による埋め込みが誤って行われる。
本研究では,理論的保証付きデータセットの整列と共同埋め込みのための原理的アプローチである「textit{Entropic Optimal Transport (EOT) eigenmaps」を提案する。
提案手法では,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共有基盤構造を抽出し,共通の埋め込み空間でデータセットを整列させる。
我々は、我々のアプローチを古典ラプラシア固有写像と拡散写像の埋め込みのデータ間変種として解釈し、多くの好ましい類似特性を享受していることを示す。
次に、観測された2つの高次元データセットが共通の低次元多様体上で潜在変数を共有するデータ生成モデルを分析する。
本研究では, 高次元漸近状態において, EOT計画が潜伏変数の位置で評価されたカーネル関数を近似することにより, 共有多様体構造を復元することを示した。
その後、共有多様体の密度と幾何学を符号化する集団レベルの作用素の固有関数と関連づけることで、埋め込みの幾何学的解釈を提供する。
最後に、実世界の生物データのシミュレーションと分析を通じて、データ統合と埋め込みのためのアプローチの性能を実証し、挑戦シナリオにおける代替手法に対する利点を実証する。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs [32.40622753355266]
データの幾何学的構造を研究するための枠組みを提案する。
我々は最近導入された非負のカーネル回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。
論文 参考訳(メタデータ) (2022-10-31T17:01:17Z) - Unsupervised Manifold Alignment with Joint Multidimensional Scaling [4.683612295430957]
2つの異なる領域からのデータセットを共通の低次元ユークリッド空間にマッピングする関節多次元スケーリングを導入する。
本稿では,多次元スケーリング(MDS)とワッサーシュタイン・プロクリスト解析を共同最適化問題に統合する。
提案手法の有効性を,2つのデータセットの同時可視化,教師なし不均一領域適応,グラフマッチング,タンパク質構造アライメントなど,いくつかのアプリケーションで実証した。
論文 参考訳(メタデータ) (2022-07-06T21:02:42Z) - AVIDA: Alternating method for Visualizing and Integrating Data [1.6637373649145604]
AVIDAはデータアライメントと次元削減を同時に行うためのフレームワークである。
AVIDAは特徴のない高次元データセットを正しく整列することを示す。
一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。
論文 参考訳(メタデータ) (2022-05-31T22:36:10Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。