論文の概要: Topological Quality of Subsets via Persistence Matching Diagrams
- arxiv url: http://arxiv.org/abs/2306.02411v3
- Date: Sun, 29 Sep 2024 11:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:46.059124
- Title: Topological Quality of Subsets via Persistence Matching Diagrams
- Title(参考訳): パーシステンスマッチングダイアグラムによるサブセットのトポロジ的品質
- Authors: Álvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz,
- Abstract要約: 我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
- 参考スコア(独自算出の注目度): 0.196629787330046
- License:
- Abstract: Data quality is crucial for the successful training, generalization and performance of machine learning models. We propose to measure the quality of a subset concerning the dataset it represents, using topological data analysis techniques. Specifically, we define the persistence matching diagram, a topological invariant derived from combining embeddings with persistent homology. We provide an algorithm to compute it using minimum spanning trees. Also, the invariant allows us to understand whether the subset ``represents well" the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. In particular, this approach enables us to explain why the chosen subset is likely to result in poor performance of a supervised learning model.
- Abstract(参考訳): データ品質は、機械学習モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。
本稿では、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定することを提案する。
具体的には、埋め込みと永続ホモロジーを組み合わせた位相不変量である永続マッチング図を定義する。
最小分散木を用いて計算するアルゴリズムを提供する。
また、この不変量により、より大きなデータセットから集合の ``represents well" を理解でき、それを使って、サブセットと完全なデータセットの間のハウスドルフ距離の境界を推定することができる。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
関連論文リスト
- Spectral Self-supervised Feature Selection [7.052728135831165]
教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。
提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。
我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
論文 参考訳(メタデータ) (2024-07-12T07:29:08Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Manifold Learning with Sparse Regularised Optimal Transport [0.17205106391379024]
実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果をシミュレーションで示す。
論文 参考訳(メタデータ) (2023-07-19T08:05:46Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Approximating Persistent Homology for Large Datasets [0.0]
永続ホモロジーは、永続図形の統計的な要約を生成する。
広く使われているにもかかわらず、データセットが非常に大きい場合、永続的ホモロジーは単純に実装できない。
サブサンプルの永続性図の平均は、より大きなデータセットの真の永続性ホモロジーの有効な近似であることを示す。
論文 参考訳(メタデータ) (2022-04-19T23:07:27Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Data efficiency in graph networks through equivariance [1.713291434132985]
座標埋め込みにおける任意の変換に同値なグラフネットワークのための新しいアーキテクチャを導入する。
最小限のデータ量で学習することで、提案するアーキテクチャが、合成問題において見つからないデータに完全に一般化できることが示される。
論文 参考訳(メタデータ) (2021-06-25T17:42:34Z) - Fuzzy c-Means Clustering for Persistence Diagrams [42.1666496315913]
ユビキタスなFuzzy c-Means(FCM)クラスタリングアルゴリズムを永続化ダイアグラムの空間に拡張する。
提案アルゴリズムは, トポロジ的事前知識を使わずに, データのトポロジ的構造を捉える。
材料科学において、変換格子構造データセットを初めて分類する。
論文 参考訳(メタデータ) (2020-06-04T11:45:20Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。