論文の概要: Clustering with UMAP: Why and How Connectivity Matters
- arxiv url: http://arxiv.org/abs/2108.05525v1
- Date: Thu, 12 Aug 2021 04:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:39:14.893458
- Title: Clustering with UMAP: Why and How Connectivity Matters
- Title(参考訳): UMAPによるクラスタリング - 接続性の重要性と理由
- Authors: Ayush Dalmia, Suzanna Sia
- Abstract要約: t-SNE や UMAP のようなトポロジーに基づく次元削減手法は、高次元データにおいて成功と人気が高まっている。
ノード接続性 (k-Nearest Neighbors vs textitmutual k-Nearest Neighbors) と近辺性 (Path Neighbors を介して隣接) が次元減少に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topology based dimensionality reduction methods such as t-SNE and UMAP have
seen increasing success and popularity in high-dimensional data. These methods
have strong mathematical foundations and are based on the intuition that the
topology in low dimensions should be close to that of high dimensions. Given
that the initial topological structure is a precursor to the success of the
algorithm, this naturally raises the question: What makes a "good" topological
structure for dimensionality reduction? %Insight into this will enable us to
design better algorithms which take into account both local and global
structure. In this paper which focuses on UMAP, we study the effects of node
connectivity (k-Nearest Neighbors vs \textit{mutual} k-Nearest Neighbors) and
relative neighborhood (Adjacent via Path Neighbors) on dimensionality
reduction. We explore these concepts through extensive ablation studies on 4
standard image and text datasets; MNIST, FMNIST, 20NG, AG, reducing to 2 and 64
dimensions. Our findings indicate that a more refined notion of connectivity
(\textit{mutual} k-Nearest Neighbors with minimum spanning tree) together with
a flexible method of constructing the local neighborhood (Path Neighbors), can
achieve a much better representation than default UMAP, as measured by
downstream clustering performance.
- Abstract(参考訳): t-SNE や UMAP のようなトポロジーに基づく次元削減手法は、高次元データにおいて成功と人気が高まっている。
これらの方法は強い数学的基礎を持ち、低次元の位相は高次元の位相に近いべきという直観に基づいている。
最初の位相構造がアルゴリズムの成功の先駆けであることを考えると、これは自然に疑問を提起する。
%Insightを組み込むことで、ローカル構造とグローバル構造の両方を考慮したより良いアルゴリズムを設計できます。
本稿では,umapに着目し,ノード接続(k-nearest neighbors対 \textit{mutual} k-nearest neighbors)と相対近傍(path neighbors経由の隣接)が次元減少に与える影響について検討する。
これらの概念は、MNIST、FMNIST、20NG、AGの4つの標準画像およびテキストデータセットに関する広範囲にわたるアブレーション研究を通して探求する。
その結果,局所近傍(パス近傍)を柔軟に構築する手法とともに,より洗練された接続性(最小スパンディングツリーを持つk-nearest近傍)の概念が,ダウンストリームクラスタリング性能で測定したように,既定のumapよりもはるかに優れた表現を実現できることがわかった。
関連論文リスト
- A multi-core periphery perspective: Ranking via relative centrality [4.33459568143131]
コミュニティとコア周辺は、広く研究されている2つのグラフ構造である。
グラフのコア周辺構造がコミュニティ構造を理解することに与える影響は、十分に利用されていない。
我々は,各コミュニティが密接な連結部分(中核)を持ち,残りの部分(周辺部)が疎い,基底真理コミュニティを持つグラフのための小説を紹介する。
論文 参考訳(メタデータ) (2024-06-06T20:21:27Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Efficient Graph Field Integrators Meet Point Clouds [59.27295475120132]
点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。
第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。
論文 参考訳(メタデータ) (2023-02-02T08:33:36Z) - Neighborhood Homophily-based Graph Convolutional Network [4.511171093050241]
グラフニューラルネットワーク(GNN)は、グラフ指向のタスクにおいて強力であることが証明されている。
多くの実世界のグラフは異性を持ち、古典的なGNNのホモフィリーな仮定に挑戦する。
最近の研究では、ホモフィリーを特徴付ける新しい指標を提案するが、提案する指標とモデルの相関を考えることは稀である。
本稿ではまず,ノード近傍におけるラベルの複雑さや純度を測定するため,新しい指標であるNeighborhood Homophily(textitNH)を設計する。
論文 参考訳(メタデータ) (2023-01-24T07:56:44Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Neighborhood Matching Network for Entity Alignment [71.24217694278616]
Neighborhood Matching Network (NMN)は、新しいエンティティアライメントフレームワークである。
NMNは、トポロジカル構造と近傍差の両方を捉えるために、エンティティ間の類似性を推定する。
まず、新しいグラフサンプリング法を用いて、各エンティティの識別的近傍を蒸留する。
その後、クロスグラフの近傍マッチングモジュールを採用し、与えられたエンティティペアの近傍差を共同で符号化する。
論文 参考訳(メタデータ) (2020-05-12T08:26:15Z) - Data Structures & Algorithms for Exact Inference in Hierarchical
Clustering [41.24805506595378]
本稿では,新しいトレリスデータ構造に基づく階層クラスタリングにおける表現型推論のための動的プログラミングアルゴリズムを提案する。
我々のアルゴリズムは時間と空間に比例してN$要素のパワーセットをスケールし、これは(2N-3)! 可能な階層のそれぞれを明示的に考慮するよりも指数関数的に効率的である。
論文 参考訳(メタデータ) (2020-02-26T17:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。