論文の概要: Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2203.12997v1
- Date: Thu, 24 Mar 2022 11:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:26:21.903865
- Title: Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction
- Title(参考訳): 効率的な次元化のための階層的近傍グラフ埋め込み
- Authors: M. Saquib Sarfraz, Marios Koulakis, Constantin Seibold, Rainer
Stiefelhagen
- Abstract要約: 元の空間における1-アレスト近傍グラフ上に構築された階層構造に基づく新しい手法を提案する。
この提案は、t-SNE と UMAP の最新バージョンと競合する最適化のないプロジェクションである。
そこで本論文では,提案手法の健全性について論じ,28~16Kの範囲で1Kから1100万のサンプルと寸法の異なるデータセットの多種多様なコレクション上で評価を行った。
- 参考スコア(独自算出の注目度): 25.67957712837716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dimensionality reduction is crucial both for visualization and preprocessing
high dimensional data for machine learning. We introduce a novel method based
on a hierarchy built on 1-nearest neighbor graphs in the original space which
is used to preserve the grouping properties of the data distribution on
multiple levels. The core of the proposal is an optimization-free projection
that is competitive with the latest versions of t-SNE and UMAP in performance
and visualization quality while being an order of magnitude faster in run-time.
Furthermore, its interpretable mechanics, the ability to project new data, and
the natural separation of data clusters in visualizations make it a general
purpose unsupervised dimension reduction technique. In the paper, we argue
about the soundness of the proposed method and evaluate it on a diverse
collection of datasets with sizes varying from 1K to 11M samples and dimensions
from 28 to 16K. We perform comparisons with other state-of-the-art methods on
multiple metrics and target dimensions highlighting its efficiency and
performance. Code is available at https://github.com/koulakis/h-nne
- Abstract(参考訳): 次元の低減は、機械学習のための高次元データの可視化と前処理の両方に不可欠である。
本稿では,データ分布のグルーピング特性を多レベルに保持するために,元の空間における1-nearest近傍グラフ上に構築した階層構造に基づく新しい手法を提案する。
提案のコアとなるのは、t-SNEとUMAPの最新バージョンと性能と視覚化品質で競合する最適化不要なプロジェクションである。
さらに、解釈可能な機構、新しいデータを投影する能力、視覚化におけるデータクラスタの自然な分離により、汎用的な教師なし次元削減技術となっている。
本稿では,提案手法の健全性について議論し,28から16kの異なる1kから11mのサンプルと寸法の異なる多様なデータセットについて評価する。
我々は,その効率と性能を強調する複数の指標と対象次元について,他の最先端手法との比較を行う。
コードはhttps://github.com/koulakis/h-nneで入手できる。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Joint Projection Learning and Tensor Decomposition Based Incomplete
Multi-view Clustering [21.925066554821168]
不完全なマルチビュークラスタリングのための新しい統合投影分解法(JPLTD)を提案する。
JPLTDは高次元データにおける冗長な特徴やノイズの影響を軽減する。
いくつかのベンチマークデータセットの実験では、JPLTDが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-10-06T06:19:16Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - In search of the most efficient and memory-saving visualization of high
dimensional data [0.0]
多次元データの可視化は、非次元近傍グラフの2方向埋め込みをよく近似していると論じる。
既存のリダクション手法は遅すぎるため、インタラクティブな操作ができない。
高品質な埋め込みは、最小限の時間とメモリの複雑さで生成されることを示す。
論文 参考訳(メタデータ) (2023-02-27T20:56:13Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Learning a Deep Part-based Representation by Preserving Data
Distribution [21.13421736154956]
教師なし次元減少は、高次元データ認識問題において一般的に用いられる技法の1つである。
本稿では,データ分布を保存することにより,深部部分に基づく表現を学習し,新しいアルゴリズムを分散保存ネットワーク埋め込みと呼ぶ。
実世界のデータセットにおける実験結果から,提案アルゴリズムはクラスタ精度とAMIの点で優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-17T12:49:36Z) - NCVis: Noise Contrastive Approach for Scalable Visualization [79.44177623781043]
NCVisはノイズコントラスト推定の音響統計的基礎の上に構築された高性能次元減少法である。
NCVisは,他の手法の表現品質を保ちながら,速度の観点から最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-30T15:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。