論文の概要: Manifold learning with approximate nearest neighbors
- arxiv url: http://arxiv.org/abs/2103.11773v1
- Date: Mon, 22 Feb 2021 12:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:46:28.386814
- Title: Manifold learning with approximate nearest neighbors
- Title(参考訳): 近傍近傍近傍でのマニフォールド学習
- Authors: Fan Cheng, Rob J Hyndman, Anastasios Panagiotelis
- Abstract要約: 多様体学習アルゴリズムでは近距離近傍の近似アルゴリズムを多用し,その埋め込み精度への影響を評価した。
ベンチマークmnistデータセットに基づく徹底的な実証調査により,近似近辺の計算時間が大幅に改善されることが示されている。
本アプリケーションは,提案手法を用いて異常を可視化し,同定し,高次元データ中の基盤構造を明らかにする方法を示す。
- 参考スコア(独自算出の注目度): 1.8477401359673706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Manifold learning algorithms are valuable tools for the analysis of
high-dimensional data, many of which include a step where nearest neighbors of
all observations are found. This can present a computational bottleneck when
the number of observations is large or when the observations lie in more
general metric spaces, such as statistical manifolds, which require all
pairwise distances between observations to be computed. We resolve this problem
by using a broad range of approximate nearest neighbor algorithms within
manifold learning algorithms and evaluating their impact on embedding accuracy.
We use approximate nearest neighbors for statistical manifolds by exploiting
the connection between Hellinger/Total variation distance for discrete
distributions and the L2/L1 norm. Via a thorough empirical investigation based
on the benchmark MNIST dataset, it is shown that approximate nearest neighbors
lead to substantial improvements in computational time with little to no loss
in the accuracy of the embedding produced by a manifold learning algorithm.
This result is robust to the use of different manifold learning algorithms, to
the use of different approximate nearest neighbor algorithms, and to the use of
different measures of embedding accuracy. The proposed method is applied to
learning statistical manifolds data on distributions of electricity usage. This
application demonstrates how the proposed methods can be used to visualize and
identify anomalies and uncover underlying structure within high-dimensional
data in a way that is scalable to large datasets.
- Abstract(参考訳): マニフォールド学習アルゴリズムは、高次元データの分析に有用なツールであり、その多くが、すべての観測の最も近い隣人が見つかるステップを含む。
これは、観測数が大きい場合や、統計多様体のようなより一般的な距離空間にある場合、観測間の全ての対距離を計算する必要がある場合、計算ボトルネックを示すことができる。
本研究では,多様体学習アルゴリズムにおける近似近似近傍アルゴリズムを用いてこの問題を解決し,その埋め込み精度への影響を評価した。
離散分布に対するヘリンガー/トータル変動距離とl2/l1ノルムとの接続を利用して,統計多様体の近似近似近傍を用いる。
ベンチマークMNISTデータセットに基づく徹底的な実証調査の結果, 近似近傍では, 多様体学習アルゴリズムが生成した埋め込みの精度をほとんど, あるいは全く損なわず, 計算時間を大幅に改善することがわかった。
この結果は、異なる多様体学習アルゴリズムの使用、近傍の異なる近似アルゴリズムの使用、および埋め込み精度の異なる尺度の使用に対して堅牢である。
本手法は,電気利用の分布に関する統計多様体データの学習に応用する。
このアプリケーションでは,提案手法を用いて,大規模データセットにスケーラブルな方法で異常を可視化および識別し,高次元データの基盤構造を明らかにする方法を示す。
関連論文リスト
- An accuracy-runtime trade-off comparison of scalable Gaussian process approximations for spatial data [11.141688859736805]
ガウス過程の欠点は、計算コストが$mathcalO(N3)$ timeと$mathcalO(N2)$ memory complexityである。
この制限に対処するために、多くの近似技術が提案されている。
複数のシミュレーションおよび大規模実世界のデータセット上で、精度と実行時のトレードオフを分析する。
論文 参考訳(メタデータ) (2025-01-20T12:35:58Z) - Piecewise-Linear Manifolds for Deep Metric Learning [8.670873561640903]
教師なしの深度学習は、ラベルなしデータのみを使用して意味表現空間を学習することに焦点を当てる。
本稿では,各低次元線形片が点の小さな近傍でデータ多様体を近似して高次元データ多様体をモデル化することを提案する。
我々は、この類似度推定が、現在の最先端技術の類似度推定よりも基礎的真理と相関していることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-22T06:22:20Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models [11.141688859736805]
本稿では,いくつかのプレコンディショナーを導入,解析し,新しい収束結果の導出を行い,予測分散を正確に近似する新しい手法を提案する。
特に、Coleskyベースの計算と比較すると、桁違いの高速化が得られる。
すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。
論文 参考訳(メタデータ) (2023-10-18T14:31:16Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Sparse Algorithms for Markovian Gaussian Processes [18.999495374836584]
スパースマルコフ過程は、誘導変数の使用と効率的なカルマンフィルタライク再帰を結合する。
我々は,局所ガウス項を用いて非ガウス的確率を近似する一般的なサイトベースアプローチであるsitesを導出する。
提案手法は,変動推論,期待伝播,古典非線形カルマンスムーサなど,機械学習と信号処理の両方から得られるアルゴリズムの新たなスパース拡張の一群を導出する。
派生した方法は、モデルが時間と空間の両方で別々の誘導点を持つ文学時間データに適しています。
論文 参考訳(メタデータ) (2021-03-19T09:50:53Z) - Scalable Distributed Approximation of Internal Measures for Clustering
Evaluation [5.144809478361603]
クラスタリング評価のための内部測度はシルエット係数であり、計算には2つの距離計算が必要である。
本稿では,任意の距離に基づいてクラスタリングの評価を行うための厳密な近似を計算した最初のスケーラブルアルゴリズムを提案する。
また,このアルゴリズムは凝集や分離などのクラスタリング品質の他の内部指標の厳密な近似に適応可能であることも証明した。
論文 参考訳(メタデータ) (2020-03-03T10:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。