Fugu-MT 論文翻訳(概要): Efficient Sparse Spherical k-Means for Document Clustering

論文の概要: Efficient Sparse Spherical k-Means for Document Clustering

arxiv url: http://arxiv.org/abs/2108.00895v1
Date: Fri, 30 Jul 2021 12:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-03 15:30:57.263811
Title: Efficient Sparse Spherical k-Means for Document Clustering
Title（参考訳）: 文書クラスタリングに有効なスパース球形k平均
Authors: Johannes Knittel, Steffen Koch, Thomas Ertl
Abstract要約: k に関する球k-平均のスケーラビリティを向上させるための効率的なインデックス構造を提案する。提案手法は,入力ベクトルの間隔とk-Meansの収束挙動を利用して,各反復における比較回数を大幅に削減する。
参考スコア（独自算出の注目度）: 13.217173710137363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spherical k-Means is frequently used to cluster document collections because it performs reasonably well in many settings and is computationally efficient. However, the time complexity increases linearly with the number of clusters k, which limits the suitability of the algorithm for larger values of k depending on the size of the collection. Optimizations targeted at the Euclidean k-Means algorithm largely do not apply because the cosine distance is not a metric. We therefore propose an efficient indexing structure to improve the scalability of Spherical k-Means with respect to k. Our approach exploits the sparsity of the input vectors and the convergence behavior of k-Means to reduce the number of comparisons on each iteration significantly.
Abstract（参考訳）: 球面k-Meansは、多くの設定で合理的に機能し、計算効率が良いため、文書コレクションのクラスタリングに頻繁に使用される。しかし、時間複雑性はクラスタ数kとともに直線的に増加し、コレクションのサイズに応じて k のより大きな値に対するアルゴリズムの適合性が制限される。ユークリッド k-平均アルゴリズムを対象とする最適化は、余弦距離が計量ではないため、ほとんど適用されない。そこで本研究では,k-Means に対する球面 k-Means のスケーラビリティを向上させるための効率的なインデックス構造を提案する。

関連論文リスト

K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Accelerating k-Means Clustering with Cover Trees [0.30693357740321775]
表木指数に基づく新しいk-meansアルゴリズムを提案し, オーバーヘッドが比較的低く, 性能も良好である。木集約と境界に基づくフィルタリングの利点を組み合わせたハイブリッドアルゴリズムを得る。
論文参考訳（メタデータ） (2024-10-19T14:02:42Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
Careful Seeding for k-Medois Clustering with Incremental k-Means++ Initialization [17.4921582710817]
K-medoidsクラスタリングはk-meansクラスタリングの一般的な変種であり、パターン認識や機械学習で広く使用されている。 INCKMアルゴリズムと呼ばれる改良されたk-medoidsクラスタリングアルゴリズムが最近提案され、この欠点を克服した。インクリメンタルk-means++ (INCKPP) アルゴリズムと呼ばれる新しいk-medoidsクラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-06T02:25:35Z)
A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文参考訳（メタデータ） (2022-03-02T09:29:40Z)
A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文参考訳（メタデータ） (2021-12-29T19:15:20Z)
K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。提案手法の主な利点は,精度と速度である。
論文参考訳（メタデータ） (2021-10-09T23:02:57Z)
Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。 1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文参考訳（メタデータ） (2020-08-18T16:22:06Z)
An Efficient Smoothing Proximal Gradient Algorithm for Convex Clustering [2.5182813818441945]
最近導入された凸クラスタリング手法は、凸最適化問題としてクラスタリングを定式化している。最先端の凸クラスタリングアルゴリズムは大規模な計算とメモリ空間を必要とする。本稿では,凸クラスタリングのための非常に効率的なスムーズな勾配法 (Sproga) を提案する。
論文参考訳（メタデータ） (2020-06-22T20:02:59Z)
SimpleMKKM: Simple Multiple Kernel K-means [49.500663154085586]
単純なマルチカーネルk-means(SimpleMKKM)と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。
論文参考訳（メタデータ） (2020-05-11T10:06:40Z)
Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文参考訳（メタデータ） (2020-05-02T10:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。