論文の概要: Topological Quality of Subsets via Persistence Matching Diagrams
- arxiv url: http://arxiv.org/abs/2306.02411v3
- Date: Sun, 29 Sep 2024 11:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:46.059124
- Title: Topological Quality of Subsets via Persistence Matching Diagrams
- Title(参考訳): パーシステンスマッチングダイアグラムによるサブセットのトポロジ的品質
- Authors: Álvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz,
- Abstract要約: 我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
- 参考スコア(独自算出の注目度): 0.196629787330046
- License:
- Abstract: Data quality is crucial for the successful training, generalization and performance of machine learning models. We propose to measure the quality of a subset concerning the dataset it represents, using topological data analysis techniques. Specifically, we define the persistence matching diagram, a topological invariant derived from combining embeddings with persistent homology. We provide an algorithm to compute it using minimum spanning trees. Also, the invariant allows us to understand whether the subset ``represents well" the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. In particular, this approach enables us to explain why the chosen subset is likely to result in poor performance of a supervised learning model.
- Abstract(参考訳): データ品質は、機械学習モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。
本稿では、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定することを提案する。
具体的には、埋め込みと永続ホモロジーを組み合わせた位相不変量である永続マッチング図を定義する。
最小分散木を用いて計算するアルゴリズムを提供する。
また、この不変量により、より大きなデータセットから集合の ``represents well" を理解でき、それを使って、サブセットと完全なデータセットの間のハウスドルフ距離の境界を推定することができる。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Ensemble Classifier Design Tuned to Dataset Characteristics for Network
Intrusion Detection [0.0]
データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。
提案手法は二進分類と多進分類の両方で評価される。
論文 参考訳(メタデータ) (2022-05-08T21:06:42Z) - Joint Geometric and Topological Analysis of Hierarchical Datasets [7.098759778181621]
本稿では,複数の階層的データセットに整理された高次元データに注目する。
この研究の主な新規性は、トポロジカルデータ分析と幾何多様体学習という、2つの強力なデータ分析アプローチの組み合わせにある。
本手法は, 最新手法と比較して優れた分類結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-03T13:02:00Z) - An Information-Theoretic Perspective on Overfitting and Underfitting [0.0]
本稿では,機械学習における過度な適合と不適合を理解するための情報理論フレームワークを提案する。
任意の分類アルゴリズムがデータセットを過度に適合させるかどうかを判断する際の形式的不確定性を証明する。
論文 参考訳(メタデータ) (2020-10-12T23:24:47Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。