論文の概要: Improved seeding strategies for k-means and k-GMM
- arxiv url: http://arxiv.org/abs/2506.21291v1
- Date: Thu, 26 Jun 2025 14:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.12021
- Title: Improved seeding strategies for k-means and k-GMM
- Title(参考訳): k-meansとk-GMMのための改良されたシード戦略
- Authors: Guillaume Carrière, Frédéric Cazals,
- Abstract要約: 我々はk平均クラスタリングとk-GMMのためのランダム化シード手法を再検討する。
本研究は, 種子採取に用いる指標, 候補種子数, 種子選択に用いる指標の3つの重要な成分を定式化した。
実験では、最終計量の観点から古典的競合者よりも一貫した定数係数の改善が示される。
- 参考スコア(独自算出の注目度): 1.8416014644193064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the randomized seeding techniques for k-means clustering and k-GMM (Gaussian Mixture model fitting with Expectation-Maximization), formalizing their three key ingredients: the metric used for seed sampling, the number of candidate seeds, and the metric used for seed selection. This analysis yields novel families of initialization methods exploiting a lookahead principle--conditioning the seed selection to an enhanced coherence with the final metric used to assess the algorithm, and a multipass strategy to tame down the effect of randomization. Experiments show a consistent constant factor improvement over classical contenders in terms of the final metric (SSE for k-means, log-likelihood for k-GMM), at a modest overhead. In particular, for k-means, our methods improve on the recently designed multi-swap strategy, which was the first one to outperform the greedy k-means++ seeding. Our experimental analysis also shed light on subtle properties of k-means often overlooked, including the (lack of) correlations between the SSE upon seeding and the final SSE, the variance reduction phenomena observed in iterative seeding methods, and the sensitivity of the final SSE to the pool size for greedy methods. Practically, our most effective seeding methods are strong candidates to become one of the--if not the--standard techniques. From a theoretical perspective, our formalization of seeding opens the door to a new line of analytical approaches.
- Abstract(参考訳): 我々は,k-meansクラスタリングとk-GMM(Gaussian Mixture model fit with expectation-Maximization)のランダム化シード技術を再検討し,その3つの重要な成分である,種子サンプリングの指標,候補種子の数,種子選択の指標を定式化した。
この分析は, 種選択をアルゴリズム評価に用いる最終指標との整合性の向上に調和させ, ランダム化の効果を抑えるためのマルチパス戦略という, ルックアヘッド原理を利用した新しい初期化手法のファミリーを導出する。
実験では、最終基準(k-means、k-GMM、log-likelihood、k-GMM)の点において、古典的競合者よりも一定の定数係数の改善が見られた。
特にk-meansでは、最近設計されたマルチスワップ戦略を改良し、greedy k-means++のシードよりも優れていた。
また,本実験では,SSEと最終SSEの相関関係の欠如,反復播種法で観察される分散低減現象,最終SSEのプールサイズに対する感度など,k-meansの微妙な性質をしばしば見落としている。
実際、我々の最も効果的な種作法は、標準技術であるかどうかに関わらず、強力な候補である。
理論的観点から、種付けの形式化は、新しい分析的アプローチへの扉を開く。
関連論文リスト
- K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Random Normed k-Means: A Paradigm-Shift in Clustering within Probabilistic Metric Spaces [0.7864304771129751]
確率的距離空間内で機能する文献において、最初のk-平均変種を導入する。
確率論的視点を採用することで,本手法は新たなパラダイムを導入するだけでなく,厳密な理論的枠組みも確立する。
提案したランダムノルムk平均(RNKM)アルゴリズムは,非線形に分離可能な構造を識別する顕著な能力を示す。
論文 参考訳(メタデータ) (2025-04-04T20:48:43Z) - A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。