論文の概要: Simple and Scalable Sparse k-means Clustering via Feature Ranking
- arxiv url: http://arxiv.org/abs/2002.08541v2
- Date: Thu, 22 Oct 2020 11:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:42:47.463815
- Title: Simple and Scalable Sparse k-means Clustering via Feature Ranking
- Title(参考訳): 特徴ランク付けによる単純でスケーラブルなk-meansクラスタリング
- Authors: Zhiyue Zhang, Kenneth Lange, Jason Xu
- Abstract要約: 直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
- 参考スコア(独自算出の注目度): 14.839931533868176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering, a fundamental activity in unsupervised learning, is notoriously
difficult when the feature space is high-dimensional. Fortunately, in many
realistic scenarios, only a handful of features are relevant in distinguishing
clusters. This has motivated the development of sparse clustering techniques
that typically rely on k-means within outer algorithms of high computational
complexity. Current techniques also require careful tuning of shrinkage
parameters, further limiting their scalability. In this paper, we propose a
novel framework for sparse k-means clustering that is intuitive, simple to
implement, and competitive with state-of-the-art algorithms. We show that our
algorithm enjoys consistency and convergence guarantees. Our core method
readily generalizes to several task-specific algorithms such as clustering on
subsets of attributes and in partially observed data settings. We showcase
these contributions thoroughly via simulated experiments and real data
benchmarks, including a case study on protein expression in trisomic mice.
- Abstract(参考訳): 教師なし学習の基本的なアクティビティであるクラスタリングは、機能空間が高次元である場合、非常に難しい。
幸運なことに、多くの現実的なシナリオでは、クラスタの識別に関係している機能はごくわずかである。
これにより、計算複雑性の高い外部アルゴリズム内のk平均に依存するスパースクラスタリング技術の開発が動機となった。
現在の技術では、縮小パラメータを慎重にチューニングし、スケーラビリティをさらに制限する必要がある。
本稿では,より直感的で,実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
我々のアルゴリズムは一貫性と収束の保証を享受している。
本手法は属性のサブセットのクラスタリングや部分的に観測されたデータ設定などのタスク固有のアルゴリズムに容易に一般化する。
トリソミックマウスにおけるタンパク質の発現に関するケーススタディを含む、シミュレーション実験と実データベンチマークを通じて、これらの貢献を徹底的に紹介する。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Explainable Clustering via Exemplars: Complexity and Efficient
Approximation Algorithms [30.369731369945296]
本稿では,各クラスタを説明するためのクラスタや例を見出すための,説明可能なクラスタリング手法を提案する。
理解のための模範的概念の使用は、心理学における模範的概念定義の流派によって支持されている。
一つのクラスタでも説明できるような,小さな例の集合を見つけることは,計算的に難解であることを示す。
論文 参考訳(メタデータ) (2022-09-20T12:09:51Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。
提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。
驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-06-16T16:14:01Z) - Fuzzy clustering algorithms with distance metric learning and entropy
regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。
合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文 参考訳(メタデータ) (2021-02-18T18:19:04Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。