論文の概要: MNIST-Nd: a set of naturalistic datasets to benchmark clustering across dimensions
- arxiv url: http://arxiv.org/abs/2410.16124v1
- Date: Mon, 21 Oct 2024 15:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:52.869211
- Title: MNIST-Nd: a set of naturalistic datasets to benchmark clustering across dimensions
- Title(参考訳): MNIST-Nd:次元をまたいだクラスタリングをベンチマークする自然なデータセットの集合
- Authors: Polina Turishcheva, Laura Hansel, Martin Ritzert, Marissa A. Weis, Alexander S. Ecker,
- Abstract要約: 実世界のデータセットの重要な特性を共有する合成データセットの集合であるMNIST-Ndを提案する。
MNIST-NdはMNIST上で2から64の潜伏次元を持つ混合変分オートエンコーダによって得られる。
MNIST-Ndの予備的な共通クラスタリングアルゴリズムベンチマークは、ライデンが成長する次元に対して最も堅牢であることを示している。
- 参考スコア(独自算出の注目度): 46.67219141114834
- License:
- Abstract: Driven by advances in recording technology, large-scale high-dimensional datasets have emerged across many scientific disciplines. Especially in biology, clustering is often used to gain insights into the structure of such datasets, for instance to understand the organization of different cell types. However, clustering is known to scale poorly to high dimensions, even though the exact impact of dimensionality is unclear as current benchmark datasets are mostly two-dimensional. Here we propose MNIST-Nd, a set of synthetic datasets that share a key property of real-world datasets, namely that individual samples are noisy and clusters do not perfectly separate. MNIST-Nd is obtained by training mixture variational autoencoders with 2 to 64 latent dimensions on MNIST, resulting in six datasets with comparable structure but varying dimensionality. It thus offers the chance to disentangle the impact of dimensionality on clustering. Preliminary common clustering algorithm benchmarks on MNIST-Nd suggest that Leiden is the most robust for growing dimensions.
- Abstract(参考訳): 記録技術の進歩によって、多くの科学分野に大規模な高次元データセットが出現した。
特に生物学において、クラスタリングは、例えば異なる細胞型の組織を理解するために、そのようなデータセットの構造に関する洞察を得るためにしばしば使用される。
しかしながら、クラスタリングは、現在のベンチマークデータセットがほとんど2次元であるため、次元の正確な影響は明らかではないが、高次元へのスケールが低いことが知られている。
ここでは、実世界のデータセットの重要な性質を共有する合成データセットの集合であるMNIST-Ndを提案する。
MNIST-Ndは、MNIST上の2から64の潜伏次元の混合自己エンコーダを訓練することにより得られる。
これにより、クラスタリングにおける次元の影響を解消する機会を提供する。
MNIST-Ndの予備的な共通クラスタリングアルゴリズムベンチマークは、ライデンが成長する次元に対して最も堅牢であることを示している。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。
ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。
少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文 参考訳(メタデータ) (2023-02-13T17:09:59Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - SQuadMDS: a lean Stochastic Quartet MDS improving global structure
preservation in neighbor embedding like t-SNE and UMAP [3.7731754155538164]
この研究は、N個のデータポイントを持つO(N)の時間と空間の複雑さを伴う多次元スケーリングへの強制的アプローチを導入する。
この方法は、t-SNEのような近隣の埋め込みのファミリーの強制的レイアウトと組み合わせて、データのグローバル構造とローカル構造の両方を保存する埋め込みを生成することができる。
論文 参考訳(メタデータ) (2022-02-24T13:14:58Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。