論文の概要: T-SNE Is Not Optimized to Reveal Clusters in Data
- arxiv url: http://arxiv.org/abs/2110.02573v1
- Date: Wed, 6 Oct 2021 08:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:33:25.942236
- Title: T-SNE Is Not Optimized to Reveal Clusters in Data
- Title(参考訳): T-SNEはデータのクラスタの探索に最適化されていない
- Authors: Zhirong Yang, Yuwei Chen, Jukka Corander
- Abstract要約: データ解析ツールとしての非線形次元低減には,クラスタ可視化が不可欠である。
学生t-Distributed Neighbor Embedding (t-SNE) は、よくクラスタ可能なデータに対してクラスタを表示することができるとよく信じられている。
データに強い信号があるにもかかわらず、t-SNEはクラスタリングパターンを隠蔽する可能性がある。
- 参考スコア(独自算出の注目度): 4.03823460330412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster visualization is an essential task for nonlinear dimensionality
reduction as a data analysis tool. It is often believed that Student
t-Distributed Stochastic Neighbor Embedding (t-SNE) can show clusters for well
clusterable data, with a smaller Kullback-Leibler divergence corresponding to a
better quality. There was even theoretical proof for the guarantee of this
property. However, we point out that this is not necessarily the case -- t-SNE
may leave clustering patterns hidden despite strong signals present in the
data. Extensive empirical evidence is provided to support our claim. First,
several real-world counter-examples are presented, where t-SNE fails even if
the input neighborhoods are well clusterable. Tuning hyperparameters in t-SNE
or using better optimization algorithms does not help solve this issue because
a better t-SNE learning objective can correspond to a worse cluster embedding.
Second, we check the assumptions in the clustering guarantee of t-SNE and find
they are often violated for real-world data sets.
- Abstract(参考訳): データ解析ツールとしての非線形次元低減には,クラスタ可視化が不可欠である。
学生 t-Distributed Stochastic Neighbor Embedding (t-SNE) は、より優れた品質に対応するより小さなKullback-Leiblerの分散によって、クラスタをクラスタ可能なデータに表示できるとよく信じられている。
この性質の保証には理論的な証拠さえあった。
しかし、t-sneはデータに強い信号が存在するにもかかわらず、クラスタリングパターンを隠している可能性がある。
我々の主張を支持する大規模な実証証拠が提供される。
まず、実世界の反例をいくつか提示し、入力近傍が十分にクラスタリング可能である場合でもt-SNEは失敗する。
t-SNEでのハイパーパラメータのチューニングや最適化アルゴリズムの改善は、より優れたt-SNE学習目標がより悪いクラスタ埋め込みに対応できるため、この問題を解決できない。
次に,t-sneのクラスタリング保証の仮定を確認し,実世界のデータセットにしばしば違反していることを確認した。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Multi-View Clustering via Semi-non-negative Tensor Factorization [120.87318230985653]
半負のテンソル因子分解(Semi-NTF)に基づく新しいマルチビュークラスタリングを開発する。
本モデルは、ビュー間の関係を直接考慮し、ビュー間の補完情報を利用する。
さらに,提案手法の最適化アルゴリズムを提案し,そのアルゴリズムが常に定常KKT点に収束することを数学的に証明する。
論文 参考訳(メタデータ) (2023-03-29T14:54:19Z) - Revised Conditional t-SNE: Looking Beyond the Nearest Neighbors [6.918364447822299]
Conditional t-SNE (ct-SNE) は、既知のクラスタ情報を埋め込みから削除できる t-SNE の最近の拡張である。
ct-SNEは多くの現実的な設定で失敗することを示す。
低次元の類似性の代わりに,高次元の類似性を条件づけた修正手法を導入する。
論文 参考訳(メタデータ) (2023-02-07T14:37:44Z) - Cluster-guided Contrastive Graph Clustering Network [53.16233290797777]
クラスタ誘導コントラストグラフクラスタリングネットワーク(CCGC)を提案する。
我々は、兄弟のサブネットワーク間で重みが共有されない特別なシームズエンコーダを設計することにより、グラフの2つのビューを構築する。
意味的な負のサンプルペアを構築するために、異なる高信頼度クラスタの中心を負のサンプルとみなす。
論文 参考訳(メタデータ) (2023-01-03T13:42:38Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Stochastic Cluster Embedding [14.485496311015398]
Neighbor Embedding (NE)は、データ項目間のペアの類似性を維持することを目的としている。
Neighbor Embedding (SNE)のようなNEメソッドは、クラスタなどの大規模パターンを隠蔽する可能性がある。
隣り合う埋め込みに基づく新しいクラスタ可視化手法を提案する。
論文 参考訳(メタデータ) (2021-08-18T07:07:28Z) - Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文 参考訳(メタデータ) (2021-07-30T06:13:56Z) - Improving ClusterGAN Using Self-Augmented Information Maximization of
Disentangling Latent Spaces [8.88634093297796]
本稿では,クラスタGAN(SIMI-ClusterGAN)を改良した自己拡張情報を提案する。
提案手法は,7つのベンチマークデータセットを用いて検証され,最先端技術よりも性能が向上した。
論文 参考訳(メタデータ) (2021-07-27T10:04:32Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。