論文の概要: Efficient Sparse Spherical k-Means for Document Clustering
- arxiv url: http://arxiv.org/abs/2108.00895v1
- Date: Fri, 30 Jul 2021 12:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:30:57.263811
- Title: Efficient Sparse Spherical k-Means for Document Clustering
- Title(参考訳): 文書クラスタリングに有効なスパース球形k平均
- Authors: Johannes Knittel, Steffen Koch, Thomas Ertl
- Abstract要約: k に関する球k-平均のスケーラビリティを向上させるための効率的なインデックス構造を提案する。
提案手法は,入力ベクトルの間隔とk-Meansの収束挙動を利用して,各反復における比較回数を大幅に削減する。
- 参考スコア(独自算出の注目度): 13.217173710137363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spherical k-Means is frequently used to cluster document collections because
it performs reasonably well in many settings and is computationally efficient.
However, the time complexity increases linearly with the number of clusters k,
which limits the suitability of the algorithm for larger values of k depending
on the size of the collection. Optimizations targeted at the Euclidean k-Means
algorithm largely do not apply because the cosine distance is not a metric. We
therefore propose an efficient indexing structure to improve the scalability of
Spherical k-Means with respect to k. Our approach exploits the sparsity of the
input vectors and the convergence behavior of k-Means to reduce the number of
comparisons on each iteration significantly.
- Abstract(参考訳): 球面k-Meansは、多くの設定で合理的に機能し、計算効率が良いため、文書コレクションのクラスタリングに頻繁に使用される。
しかし、時間複雑性はクラスタ数kとともに直線的に増加し、コレクションのサイズに応じて k のより大きな値に対するアルゴリズムの適合性が制限される。
ユークリッド k-平均アルゴリズムを対象とする最適化は、余弦距離が計量ではないため、ほとんど適用されない。
そこで本研究では,k-Means に対する球面 k-Means のスケーラビリティを向上させるための効率的なインデックス構造を提案する。
関連論文リスト
- Accelerating k-Means Clustering with Cover Trees [0.30693357740321775]
表木指数に基づく新しいk-meansアルゴリズムを提案し, オーバーヘッドが比較的低く, 性能も良好である。
木集約と境界に基づくフィルタリングの利点を組み合わせたハイブリッドアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-10-19T14:02:42Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - An Efficient Smoothing Proximal Gradient Algorithm for Convex Clustering [2.5182813818441945]
最近導入された凸クラスタリング手法は、凸最適化問題としてクラスタリングを定式化している。
最先端の凸クラスタリングアルゴリズムは大規模な計算とメモリ空間を必要とする。
本稿では,凸クラスタリングのための非常に効率的なスムーズな勾配法 (Sproga) を提案する。
論文 参考訳(メタデータ) (2020-06-22T20:02:59Z) - SimpleMKKM: Simple Multiple Kernel K-means [49.500663154085586]
単純なマルチカーネルk-means(SimpleMKKM)と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。
我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。
クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。
論文 参考訳(メタデータ) (2020-05-11T10:06:40Z) - Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。
高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文 参考訳(メタデータ) (2020-05-02T10:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。