論文の概要: Fixed and adaptive landmark sets for finite pseudometric spaces
- arxiv url: http://arxiv.org/abs/2212.09826v1
- Date: Mon, 19 Dec 2022 19:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 17:19:41.619388
- Title: Fixed and adaptive landmark sets for finite pseudometric spaces
- Title(参考訳): 有限擬距離空間に対する固定および適応的ランドマーク集合
- Authors: Jason Cory Brunson and Yara Skaf
- Abstract要約: ランク付けされた距離に基づく「ラストファースト」とは、一様濃度の集合からなる表紙を指す。
ベンチマークテストを行い、その性能を機能検出やクラス予測タスクの最大値と比較する。
最後に, 予測タスクにおいて比較性能を達成し, ホモロジー検出タスクにおいて最大性能を上回った。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Topological data analysis (TDA) is an expanding field that leverages
principles and tools from algebraic topology to quantify structural features of
data sets or transform them into more manageable forms. As its theoretical
foundations have been developed, TDA has shown promise in extracting useful
information from high-dimensional, noisy, and complex data such as those used
in biomedicine. To operate efficiently, these techniques may employ landmark
samplers, either random or heuristic. The heuristic maxmin procedure obtains a
roughly even distribution of sample points by implicitly constructing a cover
comprising sets of uniform radius. However, issues arise with data that vary in
density or include points with multiplicities, as are common in biomedicine. We
propose an analogous procedure, "lastfirst" based on ranked distances, which
implies a cover comprising sets of uniform cardinality. We first rigorously
define the procedure and prove that it obtains landmarks with desired
properties. We then perform benchmark tests and compare its performance to that
of maxmin, on feature detection and class prediction tasks involving simulated
and real-world biomedical data. Lastfirst is more general than maxmin in that
it can be applied to any data on which arbitrary (and not necessarily
symmetric) pairwise distances can be computed. Lastfirst is more
computationally costly, but our implementation scales at the same rate as
maxmin. We find that lastfirst achieves comparable performance on prediction
tasks and outperforms maxmin on homology detection tasks. Where the numerical
values of similarity measures are not meaningful, as in many biomedical
contexts, lastfirst sampling may also improve interpretability.
- Abstract(参考訳): トポロジカルデータ分析(TDA)は、代数的トポロジからの原理とツールを活用して、データセットの構造的特徴を定量化し、より管理しやすい形式に変換する拡張分野である。
理論の基礎が発達するにつれて、TDAは高次元、ノイズ、複雑なデータから有用な情報を抽出することを約束している。
効率的に運用するために、これらの技術はランダムまたはヒューリスティックなランドマークサンプリングを用いることができる。
ヒューリスティックマックスミン手順は、一様半径の集合からなる被覆を暗黙的に構成することにより、試料点のほぼ偶数分布を得る。
しかし、生物医学でよく見られるように、密度の異なるデータや多重点を含むデータで問題が発生する。
本稿では,一様濃度の集合からなる被覆を意味するランク付き距離に基づく類似の手続き「ラストファースト」を提案する。
まず、手順を厳格に定義し、所望の特性を持つランドマークを得ることを示す。
次に、シミュレーションおよび実世界のバイオメディカルデータを含む特徴検出およびクラス予測タスクにおいて、ベンチマークテストを行い、その性能をmaxminと比較する。
ラストファーストは、任意の(かつ必ずしも対称ではない)ペアワイズ距離を計算できる任意のデータに適用できるという点で、maxminよりも一般的である。
lastfirstは計算コストが高いが、実装はmaxminと同じ速度でスケールする。
lastfirstは予測タスクで同等のパフォーマンスを達成し、ホモロジー検出タスクではmaxminを上回っています。
類似度尺度の数値が意味を持たない場合、多くの生物医学的文脈において、ラストファーストサンプリングは解釈可能性を向上させる。
関連論文リスト
- Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文 参考訳(メタデータ) (2024-10-08T22:34:08Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - A Fair Experimental Comparison of Neural Network Architectures for
Latent Representations of Multi-Omics for Drug Response Prediction [7.690774882108066]
等価条件下でのマルチオミクス統合手法の訓練と最適化を行う。
我々は、中間統合と後期統合の利点を組み合わせた新しい手法、Omics Stackingを考案した。
複数のオミクスデータを用いた公開薬物応答データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-08-31T12:46:08Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。