論文の概要: Persistent homology for high-dimensional data based on spectral methods
- arxiv url: http://arxiv.org/abs/2311.03087v1
- Date: Mon, 6 Nov 2023 13:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:27:02.478796
- Title: Persistent homology for high-dimensional data based on spectral methods
- Title(参考訳): スペクトル法に基づく高次元データの持続的ホモロジー
- Authors: Sebastian Damrich, Philipp Berens, Dmitry Kobak
- Abstract要約: バニラの持続的ホモロジーはノイズに非常に敏感になり、正確なトポロジーを検出できないことを示す。
k$-nearest-neighborグラフ上のスペクトル距離は、高次元ノイズの存在下でも、永続ホモロジーが正しいトポロジーを検出できることを示している。
- 参考スコア(独自算出の注目度): 18.63671450223062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent homology is a popular computational tool for detecting non-trivial
topology of point clouds, such as the presence of loops or voids. However, many
real-world datasets with low intrinsic dimensionality reside in an ambient
space of much higher dimensionality. We show that in this case vanilla
persistent homology becomes very sensitive to noise and fails to detect the
correct topology. The same holds true for most existing refinements of
persistent homology. As a remedy, we find that spectral distances on the
$k$-nearest-neighbor graph of the data, such as diffusion distance and
effective resistance, allow persistent homology to detect the correct topology
even in the presence of high-dimensional noise. Furthermore, we derive a novel
closed-form expression for effective resistance in terms of the
eigendecomposition of the graph Laplacian, and describe its relation to
diffusion distances. Finally, we apply these methods to several
high-dimensional single-cell RNA-sequencing datasets and show that spectral
distances on the $k$-nearest-neighbor graph allow robust detection of cell
cycle loops.
- Abstract(参考訳): 永続ホモロジー(persistent homology)は、ループやボイドの存在など点雲の非自明なトポロジーを検出する一般的な計算ツールである。
しかし、内在次元が低い実世界の多くのデータセットは、より高次元の周囲空間に存在する。
この場合、バニラの持続的ホモロジーはノイズに非常に敏感になり、正確なトポロジーを検出できないことを示す。
同じことが、永続ホモロジーの既存のほとんどの改良にも当てはまる。
対策として,拡散距離や有効抵抗といったデータの$k$-nearest-neighborグラフ上のスペクトル距離は,高次元ノイズの存在下においても,持続的ホモロジーが正しいトポロジーを検出できることを示す。
さらに, グラフラプラシアンの固有分解の観点から, 有効抵抗に対する新しい閉形式式を導出し, その拡散距離との関係を記述した。
最後に、これらの手法を高次元単細胞RNAシークエンシングデータセットに適用し、$k$-nearest-neighborグラフ上のスペクトル距離がセルサイクルループの堅牢な検出を可能にすることを示す。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Non-isotropic Persistent Homology: Leveraging the Metric Dependency of
PH [5.70896453969985]
連続ホモロジーを単一距離関数に制限する場合、点雲の情報が失われることを示す。
非等方的永続ホモロジーは、ランダムに生成された点雲の向き、向きのばらつき、スケーリングに関する情報を抽出できることを数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:03:17Z) - A Heat Diffusion Perspective on Geodesic Preserving Dimensionality
Reduction [66.21060114843202]
熱測地線埋め込みと呼ばれるより一般的な熱カーネルベースの多様体埋め込み法を提案する。
その結果,本手法は,地中真理多様体距離の保存において,既存の技術よりも優れていることがわかった。
また,連続体とクラスタ構造を併用した単一セルRNAシークエンシングデータセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-30T13:58:50Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - Learning Topology-Preserving Data Representations [9.710409273484464]
位相保存データ表現(次元減少)を学習する手法を提案する。
この手法の中核は、元の高次元データと潜時空間における低次元表現との間の表現トポロジディバージェンス(RTD)の最小化である。
提案手法は, 線形相関, 三重項距離ランキング精度, 永続バーコード間のワッサーシュタイン距離によって測定された, 最先端の競合相手よりも, データ多様体のグローバル構造とトポロジーをよりよく保存する。
論文 参考訳(メタデータ) (2023-01-31T22:55:04Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Tight basis cycle representatives for persistent homology of large data
sets [0.0]
永続ホモロジー(PH)はトポロジカルデータ解析の一般的なツールであり、様々な分野の研究に応用されている。
理論上は強力だが、PHは大規模データセットへの適用を妨げる高い計算コストに悩まされている。
大規模データセットにおける非自明なロバストな特徴に関する厳密な代表的境界を計算するための戦略とアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-06T22:00:42Z) - Time-inhomogeneous diffusion geometry and topology [69.55228523791897]
拡散凝縮(英: Diffusion condensation)は、各ステップが最初に計算し、そのデータに拡散演算子を適用する時間不均質な過程である。
我々はこの過程の収束と進化を幾何学的、スペクトル的、位相的観点から理論的に分析する。
我々の研究は拡散凝縮の収束に関する理論的洞察を与え、トポロジカルデータ解析と幾何学的データ解析のリンクを提供することを示している。
論文 参考訳(メタデータ) (2022-03-28T16:06:17Z) - Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。
DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文 参考訳(メタデータ) (2021-06-14T17:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。