論文の概要: Accelerating Spherical k-Means
- arxiv url: http://arxiv.org/abs/2107.04074v1
- Date: Thu, 8 Jul 2021 19:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:45:11.247551
- Title: Accelerating Spherical k-Means
- Title(参考訳): 球状k平均の加速
- Authors: Erich Schubert and Andreas Lang and Gloria Feher
- Abstract要約: 球k平均(Spherical k-means)は、文書ベクトルのようなスパースおよび高次元データのためのクラスタリングアルゴリズムである。
エルカンとハマーリーのアルゴリズムのような多くの加速技術はユークリッド距離の三角形の不等式に依存している。
本稿では,エルカンとハメリーの加速度をユークリッド距離の代わりにコサインと直接連携する球k平均アルゴリズムに組み込む。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spherical k-means is a widely used clustering algorithm for sparse and
high-dimensional data such as document vectors. While several improvements and
accelerations have been introduced for the original k-means algorithm, not all
easily translate to the spherical variant: Many acceleration techniques, such
as the algorithms of Elkan and Hamerly, rely on the triangle inequality of
Euclidean distances. However, spherical k-means uses Cosine similarities
instead of distances for computational efficiency. In this paper, we
incorporate the Elkan and Hamerly accelerations to the spherical k-means
algorithm working directly with the Cosines instead of Euclidean distances to
obtain a substantial speedup and evaluate these spherical accelerations on real
data.
- Abstract(参考訳): 球面k-meansは、文書ベクトルのようなばらばらで高次元のデータに対して広く使われているクラスタリングアルゴリズムである。
オリジナルのk-平均アルゴリズムではいくつかの改良と加速が導入されたが、球面型への変換は必ずしも容易ではなく、エルカンやハメリーのアルゴリズムのような多くの加速技術はユークリッド距離の三角不等式に依存する。
しかし、球面k平均は計算効率のために距離の代わりにコサイン類似性を用いる。
本稿では,エルカンとハメリーの加速度をユークリッド距離の代わりにコサインと直接協調する球面k平均アルゴリズムに組み込んで,実データ上でのこれらの球面加速度の精度向上と評価を行う。
関連論文リスト
- Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds [53.110934987571355]
多様体グラフ上の熱核に基づく測地学的シンクホーンを提案する。
化学療法中の患者試料からの高次元単細胞データの複数分布のバリセンタの計算に本法を適用した。
論文 参考訳(メタデータ) (2022-11-02T00:51:35Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Rectified Euler k-means and Beyond [27.471041765364884]
Euler k-means (EulerK) は、まずデータを複素写像を通じて等次元空間の単位超球面にマッピングする。
EulerKはノイズや外れ値にも頑丈である。
データ構造をよりよく特徴付けるために、地図上の実際の遠心点を取得しながら、EulerKの利点を保ちながらRectified Euler k-means法、すなわちREK1とREK2を提案する。
論文 参考訳(メタデータ) (2021-08-06T12:35:28Z) - Efficient Sparse Spherical k-Means for Document Clustering [13.217173710137363]
k に関する球k-平均のスケーラビリティを向上させるための効率的なインデックス構造を提案する。
提案手法は,入力ベクトルの間隔とk-Meansの収束挙動を利用して,各反復における比較回数を大幅に削減する。
論文 参考訳(メタデータ) (2021-07-30T12:02:33Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Fast Gravitational Approach for Rigid Point Set Registration with
Ordinary Differential Equations [79.71184760864507]
本稿では,FGA(Fast Gravitational Approach)と呼ばれる厳密な点集合アライメントのための物理に基づく新しい手法を紹介する。
FGAでは、ソースとターゲットの点集合は、シミュレーションされた重力場内を移動しながら、世界規模で多重リンクされた方法で相互作用する質量を持つ剛体粒子群として解釈される。
従来のアライメント手法では,新しいメソッドクラスには特徴がないことを示す。
論文 参考訳(メタデータ) (2020-09-28T15:05:39Z) - Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。
高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文 参考訳(メタデータ) (2020-05-02T10:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。