Fugu-MT 論文翻訳(概要): Topological data quality via 0-dimensional persistence matching

論文の概要: Topological data quality via 0-dimensional persistence matching

arxiv url: http://arxiv.org/abs/2306.02411v2
Date: Wed, 26 Jun 2024 13:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 20:03:37.803445
Title: Topological data quality via 0-dimensional persistence matching
Title（参考訳）: 0次元永続マッチングによる位相データ品質
Authors: Álvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz,
Abstract要約: 本稿では,トポロジカルデータ解析技術を用いた教師あり学習のためのデータ品質の測定手法を提案する。包含によって誘導され、0$次元の持続的ホモロジーを用いて、持続的マッチングに基づく新しい位相不変量を提供する。このアプローチによって、選択したデータセットがパフォーマンスを低下させる理由を説明することができます。
参考スコア（独自算出の注目度）: 0.196629787330046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data quality is crucial for the successful training, generalization and performance of artificial intelligence models. We propose to measure data quality for supervised learning using topological data analysis techniques. Specifically, we provide a novel topological invariant based on persistence matchings induced by inclusions and using $0$-dimensional persistent homology. We show that such an invariant is stable. We provide an algorithm and relate it to images, kernels, and cokernels of the induced morphisms. Also, we show that the invariant allows us to understand whether the subset "represents well" the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. This approach enables us to explain why the chosen dataset will lead to poor performance.
Abstract（参考訳）: データ品質は、人工知能モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。本稿では,トポロジカルデータ解析技術を用いた教師あり学習のためのデータ品質の測定手法を提案する。具体的には、包含によって誘導される持続的マッチングと$0$次元の持続的ホモロジーを用いた新しい位相不変量を提供する。そのような不変量は安定であることを示す。帰納的射のイメージ、カーネル、コカーネルに関連付けるアルゴリズムを提供する。また、この不変量によって、より大きなデータセットから、サブセットが「うまく表現する」かどうかを理解することができ、また、サブセットと完全なデータセットの間のハウスドルフ距離の限界を推定するためにも、それを利用することを示す。このアプローチによって、選択したデータセットがパフォーマンスを低下させる理由を説明することができます。

関連論文リスト

Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文参考訳（メタデータ） (2024-11-19T08:23:25Z)
Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文参考訳（メタデータ） (2024-06-12T08:30:16Z)
Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文参考訳（メタデータ） (2024-02-05T16:09:35Z)
On Characterizing the Evolution of Embedding Space of Neural Networks using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文参考訳（メタデータ） (2023-11-08T10:45:12Z)
Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文参考訳（メタデータ） (2023-05-24T11:05:12Z)
RandomSCM: interpretable ensembles of sparse classifiers tailored for omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文参考訳（メタデータ） (2022-08-11T13:55:04Z)
Ensemble Classifier Design Tuned to Dataset Characteristics for Network Intrusion Detection [0.0]
データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。提案手法は二進分類と多進分類の両方で評価される。
論文参考訳（メタデータ） (2022-05-08T21:06:42Z)
Joint Geometric and Topological Analysis of Hierarchical Datasets [7.098759778181621]
本稿では,複数の階層的データセットに整理された高次元データに注目する。この研究の主な新規性は、トポロジカルデータ分析と幾何多様体学習という、2つの強力なデータ分析アプローチの組み合わせにある。本手法は, 最新手法と比較して優れた分類結果をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-03T13:02:00Z)
An Information-Theoretic Perspective on Overfitting and Underfitting [0.0]
本稿では,機械学習における過度な適合と不適合を理解するための情報理論フレームワークを提案する。任意の分類アルゴリズムがデータセットを過度に適合させるかどうかを判断する際の形式的不確定性を証明する。
論文参考訳（メタデータ） (2020-10-12T23:24:47Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)
Hierarchical regularization networks for sparsification based learning on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文参考訳（メタデータ） (2020-06-09T18:32:24Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。