論文の概要: Approximating Persistent Homology for Large Datasets
- arxiv url: http://arxiv.org/abs/2204.09155v1
- Date: Tue, 19 Apr 2022 23:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:17:58.707380
- Title: Approximating Persistent Homology for Large Datasets
- Title(参考訳): 大規模データセットに対する永続ホモロジーの近似
- Authors: Yueqi Cao, Anthea Monod
- Abstract要約: 永続ホモロジーは、永続図形の統計的な要約を生成する。
広く使われているにもかかわらず、データセットが非常に大きい場合、永続的ホモロジーは単純に実装できない。
サブサンプルの永続性図の平均は、より大きなデータセットの真の永続性ホモロジーの有効な近似であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Persistent homology is an important methodology from topological data
analysis which adapts theory from algebraic topology to data settings and has
been successfully implemented in many applications. It produces a statistical
summary in the form of a persistence diagram, which captures the shape and size
of the data. Despite its widespread use, persistent homology is simply
impossible to implement when a dataset is very large. In this paper we address
the problem of finding a representative persistence diagram for prohibitively
large datasets. We adapt the classical statistical method of bootstrapping,
namely, drawing and studying smaller multiple subsamples from the large
dataset. We show that the mean of the persistence diagrams of subsamples --
taken as a mean persistence measure computed from the subsamples -- is a valid
approximation of the true persistent homology of the larger dataset. We give
the rate of convergence of the mean persistence diagram to the true persistence
diagram in terms of the number of subsamples and size of each subsample. Given
the complex algebraic and geometric nature of persistent homology, we adapt the
convexity and stability properties in the space of persistence diagrams
together with random set theory to achieve our theoretical results for the
general setting of point cloud data. We demonstrate our approach on simulated
and real data, including an application of shape clustering on complex
large-scale point cloud data.
- Abstract(参考訳): 永続ホモロジーは、代数トポロジーからデータ設定へ理論を適用するトポロジーデータ解析から重要な方法論であり、多くのアプリケーションでうまく実装されている。
データの形状とサイズをキャプチャするパーシステンスダイアグラム(persistence diagram)という形式で,統計的な要約を生成する。
広く使われているにもかかわらず、データセットが非常に大きい場合、永続的ホモロジーは単純に実装できない。
本稿では, 大規模データセットに対する代表的永続化図の検索問題に対処する。
従来のブートストラップ方式、すなわち、大規模データセットからより小さな複数のサブサンプルを描画し、研究する。
サブサンプルの永続性図の平均 - サブサンプルから計算された平均持続性尺度として取られた - は、より大きなデータセットの真の永続性ホモロジーの有効な近似であることを示す。
我々は、各サブサンプルのサブサンプル数とサイズの観点から、真の永続化図に平均永続化図の収束率を与える。
永続ホモロジーの複素代数的および幾何学的性質を考慮し、永続図形の空間における凸性と安定性特性をランダムな集合理論とともに適用し、点雲データの一般的な設定に関する理論的結果を達成する。
我々は、複雑な大規模クラウドデータに対する形状クラスタリングの適用を含む、シミュレーションおよび実データに対するアプローチを実証する。
関連論文リスト
- Discovering symbolic expressions with parallelized tree search [59.92040079807524]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは、複雑性の問題に対処する際の精度と効率の重要なボトルネックに直面してきた。
本稿では,限定データから汎用数学的表現を効率的に抽出する並列木探索(PTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Discrete transforms of quantized persistence diagrams [0.5249805590164902]
永続化ダイアグラムをベクトル化する新奇でシンプルな方法Qupidを紹介する。
主要な特徴は、永続化ダイアグラムの対角線付近に含まれる情報を強調するログスケールグリッドの選択である。
我々はQupidの詳細な実験分析を行い、本手法の単純さは計算コストを極端に低くすることを示した。
論文 参考訳(メタデータ) (2023-12-28T16:11:11Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Sparse Training of Discrete Diffusion Models for Graph Generation [45.103518022696996]
SparseDiffは、ほとんど全ての大きなグラフがスパースであるという観察に基づく、新しい拡散モデルである。
エッジのサブセットを選択することで、SparseDiffは、ノイズ発生過程とノイズ発生ネットワーク内のスパースグラフ表現を効果的に活用する。
本モデルでは,小規模・大規模両方のデータセットにおいて,複数のメトリクスにわたる最先端性能を示す。
論文 参考訳(メタデータ) (2023-11-03T16:50:26Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Manifold Learning with Sparse Regularised Optimal Transport [0.17205106391379024]
実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果をシミュレーションで示す。
論文 参考訳(メタデータ) (2023-07-19T08:05:46Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - $k$-Means Clustering for Persistent Homology [0.0]
永続図空間上の$k$-meansクラスタリングアルゴリズムの収束性を証明する。
また、Karush--Kuhn--Tucker フレームワークにおける最適化問題の解の理論的性質も確立する。
論文 参考訳(メタデータ) (2022-10-18T17:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。