論文の概要: Topological data quality via 0-dimensional persistence matching
- arxiv url: http://arxiv.org/abs/2306.02411v2
- Date: Wed, 26 Jun 2024 13:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 20:03:37.803445
- Title: Topological data quality via 0-dimensional persistence matching
- Title(参考訳): 0次元永続マッチングによる位相データ品質
- Authors: Álvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz,
- Abstract要約: 本稿では,トポロジカルデータ解析技術を用いた教師あり学習のためのデータ品質の測定手法を提案する。
包含によって誘導され、0$次元の持続的ホモロジーを用いて、持続的マッチングに基づく新しい位相不変量を提供する。
このアプローチによって、選択したデータセットがパフォーマンスを低下させる理由を説明することができます。
- 参考スコア(独自算出の注目度): 0.196629787330046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is crucial for the successful training, generalization and performance of artificial intelligence models. We propose to measure data quality for supervised learning using topological data analysis techniques. Specifically, we provide a novel topological invariant based on persistence matchings induced by inclusions and using $0$-dimensional persistent homology. We show that such an invariant is stable. We provide an algorithm and relate it to images, kernels, and cokernels of the induced morphisms. Also, we show that the invariant allows us to understand whether the subset "represents well" the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. This approach enables us to explain why the chosen dataset will lead to poor performance.
- Abstract(参考訳): データ品質は、人工知能モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。
本稿では,トポロジカルデータ解析技術を用いた教師あり学習のためのデータ品質の測定手法を提案する。
具体的には、包含によって誘導される持続的マッチングと$0$次元の持続的ホモロジーを用いた新しい位相不変量を提供する。
そのような不変量は安定であることを示す。
帰納的射のイメージ、カーネル、コカーネルに関連付けるアルゴリズムを提供する。
また、この不変量によって、より大きなデータセットから、サブセットが「うまく表現する」かどうかを理解することができ、また、サブセットと完全なデータセットの間のハウスドルフ距離の限界を推定するためにも、それを利用することを示す。
このアプローチによって、選択したデータセットがパフォーマンスを低下させる理由を説明することができます。
関連論文リスト
- Spectral Self-supervised Feature Selection [7.052728135831165]
教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。
提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。
我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
論文 参考訳(メタデータ) (2024-07-12T07:29:08Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Manifold Learning with Sparse Regularised Optimal Transport [0.17205106391379024]
実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果をシミュレーションで示す。
論文 参考訳(メタデータ) (2023-07-19T08:05:46Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Approximating Persistent Homology for Large Datasets [0.0]
永続ホモロジーは、永続図形の統計的な要約を生成する。
広く使われているにもかかわらず、データセットが非常に大きい場合、永続的ホモロジーは単純に実装できない。
サブサンプルの永続性図の平均は、より大きなデータセットの真の永続性ホモロジーの有効な近似であることを示す。
論文 参考訳(メタデータ) (2022-04-19T23:07:27Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Data efficiency in graph networks through equivariance [1.713291434132985]
座標埋め込みにおける任意の変換に同値なグラフネットワークのための新しいアーキテクチャを導入する。
最小限のデータ量で学習することで、提案するアーキテクチャが、合成問題において見つからないデータに完全に一般化できることが示される。
論文 参考訳(メタデータ) (2021-06-25T17:42:34Z) - Fuzzy c-Means Clustering for Persistence Diagrams [42.1666496315913]
ユビキタスなFuzzy c-Means(FCM)クラスタリングアルゴリズムを永続化ダイアグラムの空間に拡張する。
提案アルゴリズムは, トポロジ的事前知識を使わずに, データのトポロジ的構造を捉える。
材料科学において、変換格子構造データセットを初めて分類する。
論文 参考訳(メタデータ) (2020-06-04T11:45:20Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。