論文の概要: Tight basis cycle representatives for persistent homology of large data
sets
- arxiv url: http://arxiv.org/abs/2206.02925v1
- Date: Mon, 6 Jun 2022 22:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 06:11:33.836677
- Title: Tight basis cycle representatives for persistent homology of large data
sets
- Title(参考訳): 大規模データセットの持続的ホモロジーのためのタイトベースサイクル代表
- Authors: Manu Aggarwal, Vipul Periwal
- Abstract要約: 永続ホモロジー(PH)はトポロジカルデータ解析の一般的なツールであり、様々な分野の研究に応用されている。
理論上は強力だが、PHは大規模データセットへの適用を妨げる高い計算コストに悩まされている。
大規模データセットにおける非自明なロバストな特徴に関する厳密な代表的境界を計算するための戦略とアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent homology (PH) is a popular tool for topological data analysis that
has found applications across diverse areas of research. It provides a rigorous
method to compute robust topological features in discrete experimental
observations that often contain various sources of uncertainties. Although
powerful in theory, PH suffers from high computation cost that precludes its
application to large data sets. Additionally, most analyses using PH are
limited to computing the existence of nontrivial features. Precise localization
of these features is not generally attempted because, by definition, localized
representations are not unique and because of even higher computation cost. For
scientific applications, such a precise location is a sine qua non for
determining functional significance. Here, we provide a strategy and algorithms
to compute tight representative boundaries around nontrivial robust features in
large data sets. To showcase the efficiency of our algorithms and the precision
of computed boundaries, we analyze three data sets from different scientific
fields. In the human genome, we found an unexpected effect on loops through
chromosome 13 and the sex chromosomes, upon impairment of chromatin loop
formation. In a distribution of galaxies in the universe, we found
statistically significant voids. In protein homologs with significantly
different topology, we found voids attributable to ligand-interaction,
mutation, and differences between species.
- Abstract(参考訳): 永続ホモロジー(PH)はトポロジカルデータ解析の一般的なツールであり、様々な分野の研究に応用されている。
様々な不確かさの源を含む離散的な実験観測において、ロバストな位相特徴を計算するための厳密な方法を提供する。
理論的には強力だが、phは大きなデータセットへの応用を妨げる高い計算コストに苦しむ。
さらに、PHを用いたほとんどの分析は非自明な特徴の存在を計算することに限定されている。
これらの特徴の正確な局所化は、定義上、局所化表現が一意ではなく、さらに高い計算コストのため、一般的には試みられていない。
科学的応用において、そのような正確な位置は機能的重要性を決定するための正準非位である。
ここでは,大規模データセットにおける非自明なロバストな特徴に関する厳密な境界を計算するための戦略とアルゴリズムを提供する。
アルゴリズムの効率と計算境界の精度を示すため,異なる科学分野の3つのデータセットを解析した。
ヒトゲノムでは、クロマチンループ形成の障害により、染色体13および性染色体のループに予期せぬ効果が認められた。
宇宙の銀河の分布では、統計的に有意な空洞が見つかった。
トポロジーが著しく異なるタンパク質ホモログでは,リガンド相互作用,突然変異,種間の違いに起因するヴォイドが検出された。
関連論文リスト
- Nonparametric independence tests in high-dimensional settings, with applications to the genetics of complex disease [55.2480439325792]
遺伝子データの支持空間における適切な事前測定構造の定義が,このような検査に新たなアプローチをもたらすことを示す。
各問題に対して、数学的結果、シミュレーションおよび実データへの適用を提供する。
論文 参考訳(メタデータ) (2024-07-29T01:00:53Z) - Persistent Homology for High-dimensional Data Based on Spectral Methods [16.58218530585593]
持続的ホモロジーはノイズに非常に敏感になり、正確なトポロジを検出できないことを示す。
拡散距離や有効抵抗など,データのk-アネレス近傍グラフ上のスペクトル距離は,高次元ノイズがあっても正確な位相を検出することができる。
論文 参考訳(メタデータ) (2023-11-06T13:18:08Z) - Non-isotropic Persistent Homology: Leveraging the Metric Dependency of
PH [5.70896453969985]
連続ホモロジーを単一距離関数に制限する場合、点雲の情報が失われることを示す。
非等方的永続ホモロジーは、ランダムに生成された点雲の向き、向きのばらつき、スケーリングに関する情報を抽出できることを数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:03:17Z) - Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds [53.110934987571355]
多様体グラフ上の熱核に基づく測地学的シンクホーンを提案する。
化学療法中の患者試料からの高次元単細胞データの複数分布のバリセンタの計算に本法を適用した。
論文 参考訳(メタデータ) (2022-11-02T00:51:35Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - On the effectiveness of persistent homology [0.9208007322096533]
永続ホモロジー(PH)は、トポロジカルデータ分析において最も一般的な手法の1つである。
この研究の目的は、PHがデータ分析において他の方法よりも優れている、あるいは優れている、いくつかの種類の問題を特定することである。
論文 参考訳(メタデータ) (2022-06-21T17:30:27Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Dory: Overcoming Barriers to Computing Persistent Homology [0.0]
大規模データセットの持続的ホモロジーを計算できる効率的でスケーラブルなアルゴリズムであるdoryを提案する。
応用として、ヒトゲノムのPHを高分解能で計算し、ゲノムワイドHi-Cデータセットで明らかにする。
論文 参考訳(メタデータ) (2021-03-09T18:28:22Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Self-training Avoids Using Spurious Features Under Domain Shift [54.794607791641745]
教師なし領域適応においては、条件付きエントロピー最小化と擬似ラベル処理は、既存の理論で解析されたものよりもドメインシフトがはるかに大きい場合であっても行われる。
ドメインシフトが大きくなる可能性のある特定の設定を特定・分析するが、特定のスパイラルな特徴はソースドメインのラベルと相関するが、ターゲットの独立なラベルである。
論文 参考訳(メタデータ) (2020-06-17T17:51:42Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。