論文の概要: Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets
- arxiv url: http://arxiv.org/abs/2511.21074v1
- Date: Wed, 26 Nov 2025 05:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.976488
- Title: Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets
- Title(参考訳): 雑音の多い高次元データセットにおけるマニフォールド類似性とアライナビリティの統計的推論
- Authors: Hongrui Chen, Rong Ma,
- Abstract要約: 低次元多様体構造に支持された分布間の類似性とアライメントの統計的推測のための原理的枠組みを提案する。
提案手法は,既存手法と比較して,強靭性と統計力に優れることを示す。
- 参考スコア(独自算出の注目度): 8.99915297419989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid growth of high-dimensional datasets across various scientific domains has created a pressing need for new statistical methods to compare distributions supported on their underlying structures. Assessing similarity between datasets whose samples lie on low-dimensional manifolds requires robust techniques capable of separating meaningful signal from noise. We propose a principled framework for statistical inference of similarity and alignment between distributions supported on manifolds underlying high-dimensional datasets in the presence of heterogeneous noise. The key idea is to link the low-rank structure of observed data matrices to their underlying manifold geometry. By analyzing the spectrum of the sample covariance under a manifold signal-plus-noise model, we develop a scale-invariant distance measure between datasets based on their principal variance structures. We further introduce a consistent estimator for this distance and a statistical test for manifold alignability, and establish their asymptotic properties using random matrix theory. The proposed framework accommodates heterogeneous noise across datasets and offers an efficient, theoretically grounded approach for comparing high-dimensional datasets with low-dimensional manifold structures. Through extensive simulations and analyses of multi-sample single-cell datasets, we demonstrate that our method achieves superior robustness and statistical power compared with existing approaches.
- Abstract(参考訳): 様々な科学領域にまたがる高次元データセットの急速な成長は、その基盤となる構造でサポートされている分布を比較するための新しい統計手法の必要性を強く求めている。
サンプルが低次元多様体上にあるデータセット間の類似性を評価するには、ノイズから有意義な信号を分離できる堅牢な技術が必要である。
異種ノイズの存在下での高次元データセットを基礎とする多様体上での分布の類似性および整合性に関する統計的推測のための基本的枠組みを提案する。
鍵となる考え方は、観測されたデータ行列の低ランク構造と基礎となる多様体幾何学を結びつけることである。
多様体信号+雑音モデルの下でサンプル共分散のスペクトルを解析することにより、主分散構造に基づくデータセット間のスケール不変距離測定を開発する。
さらに、この距離に対する一貫した推定器と、多様体整合性に関する統計的テストを導入し、確率行列理論を用いてそれらの漸近特性を確立する。
提案フレームワークはデータセット間の異種ノイズに対応し,高次元のデータセットと低次元の多様体構造を比較するための,効率的で理論的に基礎的なアプローチを提供する。
マルチサンプル単一セルデータセットの広範囲なシミュレーションと解析により,本手法が既存手法と比較して優れたロバスト性および統計的パワーを達成できることを実証した。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - Kernel spectral joint embeddings for high-dimensional noisy datasets using duo-landmark integral operators [9.782959684053631]
本研究では、2つの独立に観測された高次元ノイズデータセットの結合埋め込みを実現する新しいカーネルスペクトル法を提案する。
得られた低次元埋め込みは、同時クラスタリング、データの可視化、デノイングなど、多くの下流タスクに利用できる。
論文 参考訳(メタデータ) (2024-05-20T18:29:36Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Learning Low-Dimensional Nonlinear Structures from High-Dimensional
Noisy Data: An Integral Operator Approach [5.975670441166475]
本研究では,高次元および雑音観測から低次元非線形構造を学習するためのカーネルスペクトル埋め込みアルゴリズムを提案する。
このアルゴリズムは、基礎となる多様体の事前の知識に依存しない適応的な帯域幅選択手順を用いる。
得られた低次元埋め込みは、データ可視化、クラスタリング、予測などの下流目的にさらに活用することができる。
論文 参考訳(メタデータ) (2022-02-28T22:46:34Z) - Stable and consistent density-based clustering via multiparameter persistence [49.1574468325115]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。