論文の概要: Euler Characteristic Curves and Profiles: a stable shape invariant for
big data problems
- arxiv url: http://arxiv.org/abs/2212.01666v2
- Date: Fri, 11 Aug 2023 18:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 22:57:44.405758
- Title: Euler Characteristic Curves and Profiles: a stable shape invariant for
big data problems
- Title(参考訳): オイラー特性曲線とプロファイル: ビッグデータ問題に対する安定な形状不変量
- Authors: Pawe{\l} D{\l}otko and Davide Gurnari
- Abstract要約: 永続ホモロジーに対するオイラー特性に基づくアプローチを計算するための効率的なアルゴリズムを示す。
Euler CurvesとProfilesはある種の安定性を享受しており、データ分析において堅牢なツールとなっている。
- 参考スコア(独自算出の注目度): 3.0023392750520883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tools of Topological Data Analysis provide stable summaries encapsulating the
shape of the considered data. Persistent homology, the most standard and well
studied data summary, suffers a number of limitations; its computations are
hard to distribute, it is hard to generalize to multifiltrations and is
computationally prohibitive for big data-sets. In this paper we study the
concept of Euler Characteristics Curves, for one parameter filtrations and
Euler Characteristic Profiles, for multi-parameter filtrations. While being a
weaker invariant in one dimension, we show that Euler Characteristic based
approaches do not possess some handicaps of persistent homology; we show
efficient algorithms to compute them in a distributed way, their generalization
to multifiltrations and practical applicability for big data problems. In
addition we show that the Euler Curves and Profiles enjoys certain type of
stability which makes them robust tool in data analysis. Lastly, to show their
practical applicability, multiple use-cases are considered.
- Abstract(参考訳): トポロジカルデータ解析のツールは、考慮されたデータの形状をカプセル化した安定した要約を提供する。
永続ホモロジー(Persistent homology)は、最も標準的でよく研究されているデータ要約であり、その計算は配布が困難であり、マルチフィルタに一般化することは困難であり、大規模データセットでは計算が禁じられている。
本稿では,1つのパラメータフィルタに対するオイラー特性曲線と,マルチパラメータフィルタに対するオイラー特性曲線の概念について検討する。
1次元においてより弱い不変量である一方、オイラー特性に基づくアプローチは永続ホモロジーのハンディキャップを持たないことを示し、分散方法でそれらを計算する効率的なアルゴリズム、マルチフィルタリングへの一般化、ビッグデータ問題に対する実用的な適用性を示す。
さらに、オイラー曲線とプロファイルはある種の安定性を享受し、データ分析においてロバストなツールとなることを示す。
最後に、実用性を示すために、複数のユースケースを検討する。
関連論文リスト
- Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Manifold Learning with Sparse Regularised Optimal Transport [0.17205106391379024]
実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果をシミュレーションで示す。
論文 参考訳(メタデータ) (2023-07-19T08:05:46Z) - A Framework for Fast and Stable Representations of Multiparameter
Persistent Homology Decompositions [2.76240219662896]
本稿では,複数パラメータの持続的ホモロジーのエム分解における最近の結果を活用する,新しい汎用表現フレームワークを提案する。
我々は,この枠組みの下で理論安定性の保証と,実用的な計算のための効率的なアルゴリズムを確立する。
いくつかの実データに対して,統計的収束,予測精度,高速実行時間を示す数値実験により,安定性とアルゴリズムの検証を行った。
論文 参考訳(メタデータ) (2023-06-19T21:28:53Z) - Measuring dissimilarity with diffeomorphism invariance [94.02751799024684]
DID(DID)は、幅広いデータ空間に適用可能なペアワイズな相似性尺度である。
我々は、DIDが理論的研究と実用に関係のある特性を享受していることを証明する。
論文 参考訳(メタデータ) (2022-02-11T13:51:30Z) - Robust learning of data anomalies with analytically-solvable entropic
outlier sparsification [0.0]
Outlier Sparsification (EOS) はデータ異常検出のための堅牢な計算戦略として提案されている。
EOSの性能は、合成問題や、バイオメディシンからの部分的に分類された分類問題において、一般的に使用される様々なツールと比較される。
論文 参考訳(メタデータ) (2021-12-22T10:13:29Z) - Partial Counterfactual Identification from Observational and
Experimental Data [83.798237968683]
観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
我々のアルゴリズムは、合成および実世界のデータセットに基づいて広範囲に検証されている。
論文 参考訳(メタデータ) (2021-10-12T02:21:30Z) - Efficient Multidimensional Functional Data Analysis Using Marginal
Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。
本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文 参考訳(メタデータ) (2021-07-30T16:02:15Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Fitting very flexible models: Linear regression with large numbers of
parameters [0.0]
リニアフィッティングはデータの一般化とデノライゼーションに使用される。
この基底関数のフィッティングについて, 通常の最小二乗とその拡張を用いて論じる。
無限パラメータの限界を取ることさえ可能であり、基礎と正規化が正しく選択された場合、最小の正方形の適合はプロセスの平均になります。
論文 参考訳(メタデータ) (2021-01-15T21:08:34Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。