論文の概要: Clustering small datasets in high-dimension by random projection
- arxiv url: http://arxiv.org/abs/2008.09579v1
- Date: Fri, 21 Aug 2020 16:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:10:26.424837
- Title: Clustering small datasets in high-dimension by random projection
- Title(参考訳): ランダム投影による高次元小データセットのクラスタリング
- Authors: Alden Bradford, Tarun Yellamraju, and Mireille Boutin
- Abstract要約: 統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
- 参考スコア(独自算出の注目度): 2.2940141855172027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets in high-dimension do not typically form clusters in their original
space; the issue is worse when the number of points in the dataset is small. We
propose a low-computation method to find statistically significant clustering
structures in a small dataset. The method proceeds by projecting the data on a
random line and seeking binary clusterings in the resulting one-dimensional
data. Non-linear separations are obtained by extending the feature space using
monomials of higher degrees in the original features. The statistical validity
of the clustering structures obtained is tested in the projected
one-dimensional space, thus bypassing the challenge of statistical validation
in high-dimension. Projecting on a random line is an extreme dimension
reduction technique that has previously been used successfully as part of a
hierarchical clustering method for high-dimensional data. Our experiments show
that with this simplified framework, statistically significant clustering
structures can be found with as few as 100-200 points, depending on the
dataset. The different structures uncovered are found to persist as more points
are added to the dataset.
- Abstract(参考訳): 高次元のデータセットは、通常、元の空間でクラスタを形成しない。
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
非線型分離は、特徴空間を原特徴の高次単体を用いて拡張することによって得られる。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証し,高次元における統計的検証の課題を回避した。
ランダム線を投影することは、高次元データの階層的クラスタリング手法の一部としてこれまで成功してきた極端次元削減手法である。
この単純化されたフレームワークでは,データセットに応じて,100~200ポイント程度の統計的に重要なクラスタリング構造が発見できることがわかった。
発見された異なる構造は、より多くのポイントがデータセットに追加されるにつれて持続する。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Spatio-Temporal Surrogates for Interaction of a Jet with High
Explosives: Part II -- Clustering Extremely High-Dimensional Grid-Based Data [0.0]
本稿では,高爆薬と相互作用するジェット機のシミュレーションから得られた出力データについて考察する。
ランダムなプロジェクションのランダム性と,k平均クラスタリングにおける初期セントロイドの選択を併用して,データセット内のクラスタ数を決定する方法を示す。
論文 参考訳(メタデータ) (2023-07-03T23:36:43Z) - Unsupervised Manifold Linearizing and Clustering [19.879641608165887]
本稿では、データ表現と2重クラスタメンバシップの両方に関して、最大符号化削減度を最適化することを提案する。
CIFAR-10, -20, -100, TinyImageNet-200データセットに対する実験により,提案手法は最先端のディープクラスタリング手法よりもはるかに正確でスケーラブルであることが示された。
論文 参考訳(メタデータ) (2023-01-04T20:08:23Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Stochastic Sparse Subspace Clustering [20.30051592270384]
最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。
本稿では,データポイントのランダムなドロップアウトに基づくオーバーセグメンテーションの問題に対処するために,ドロップアウトを導入する。
これにより、スケーラブルで柔軟なスパースサブスペースクラスタリングアプローチ(Sparse Subspace Clustering)が実現される。
論文 参考訳(メタデータ) (2020-05-04T13:09:17Z) - A new model for natural groupings in high-dimensional data [0.4604003661048266]
クラスタリングは、一連のポイントをグループに分割することを目的としています。
最近の実験では、異なるバイナリグルーピングを形成するいくつかの高次元データセットが発見されている。
本稿では,この現象を説明できる確率モデルについて述べる。
論文 参考訳(メタデータ) (2019-09-14T02:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。