論文の概要: Geometric-k-means: A Bound Free Approach to Fast and Eco-Friendly k-means
- arxiv url: http://arxiv.org/abs/2508.06353v1
- Date: Fri, 08 Aug 2025 14:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.263206
- Title: Geometric-k-means: A Bound Free Approach to Fast and Eco-Friendly k-means
- Title(参考訳): Geometric-k-means:高速でエコフレンドリーなk-meansに対する自由なアプローチ
- Authors: Parichit Sharma, Marcin Stanislaw, Hasan Kurban, Oguzhan Kulekci, Mehmet Dalkilic,
- Abstract要約: Gk-平均の本質は幾何学的原理、特にスカラー射影の活発な利用にある。
合成、実世界のデータセット、高次元データセットにまたがる実験では、Gk-meansは従来のk-meansの亜種よりもはるかに優れていることを示した。
Gk平均は、エネルギーフットプリントの減少によって証明されるように、より良い資源効率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces Geometric-k-means (or Gk-means for short), a novel approach that significantly enhances the efficiency and energy economy of the widely utilized k-means algorithm, which, despite its inception over five decades ago, remains a cornerstone in machine learning applications. The essence of Gk-means lies in its active utilization of geometric principles, specifically scalar projection, to significantly accelerate the algorithm without sacrificing solution quality. This geometric strategy enables a more discerning focus on data points that are most likely to influence cluster updates, which we call as high expressive data (HE). In contrast, low expressive data (LE), does not impact clustering outcome, is effectively bypassed, leading to considerable reductions in computational overhead. Experiments spanning synthetic, real-world and high-dimensional datasets, demonstrate Gk-means is significantly better than traditional and state of the art (SOTA) k-means variants in runtime and distance computations (DC). Moreover, Gk-means exhibits better resource efficiency, as evidenced by its reduced energy footprint, placing it as more sustainable alternative.
- Abstract(参考訳): 本稿では、50年以上前に登場したにもかかわらず、機械学習応用の基盤として依然として残っている、広く利用されているk平均アルゴリズムの効率とエネルギー経済を著しく向上させる新しいアプローチであるGeometric-k平均(略してGk平均)を紹介する。
Gk-meansの本質は、解の品質を犠牲にすることなくアルゴリズムを著しく加速するために幾何学的原理、特にスカラー射影を積極的に活用することにある。
この幾何学的戦略は、高い表現力のあるデータ(HE)と呼ばれるクラスタ更新に影響を与える可能性が最も高いデータポイントに、より明確に焦点を合わせることを可能にする。
対照的に、低表現データ(LE)はクラスタリングの結果に影響を与えず、効果的にバイパスされ、計算オーバーヘッドが大幅に減少する。
合成、実世界のデータセット、高次元データセットにまたがる実験では、Gk-meansは、実行時および距離計算(DC)における従来の、そして最先端(SOTA)のk-means変種よりも大幅に優れていることを示した。
さらに、Gk-meansはエネルギーフットプリントの削減により、より持続可能な代替品として、より良い資源効率を示す。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Silhouette-Guided Instance-Weighted k-means [2.56711111236449]
K-シル(K-Sil)は、シルエットのスコアに基づいて点を重み付けするk-meansアルゴリズムの改良である。
境界線やノイズの多い領域を抑えながら、適切にクラスタ化されたインスタンスを優先順位付けする。
これらの結果から、K-Silは高品質でよく分離されたクラスタを必要とするアプリケーションの原則的な代替品として確立される。
論文 参考訳(メタデータ) (2025-06-15T15:09:05Z) - K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Rapid Grassmannian Averaging with Chebyshev Polynomials [8.394689129416067]
我々は、グラスマン多様体上の点の集合を集中的および分散的設定の両方で効率的に平均化する新しいアルゴリズムを提案する。
提案アルゴリズムであるRapid Grassmannian Averaging (RGrAv) とDecentralized Rapid Grassmannian Averaging (DRGrAv) は,この問題のスペクトル構造を利用して高速に平均を計算することでこの問題を克服する。
我々は,最適性の理論的保証と,我々のアルゴリズムが最小時間で高精度な解を提供することで最先端の手法より優れていることを示す数値実験を提供する。
論文 参考訳(メタデータ) (2024-10-11T16:25:06Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Optimizing the Optimal Weighted Average: Efficient Distributed Sparse Classification [50.406127962933915]
ACOWAは、小さなランタイムの増加とともに、顕著に優れた近似品質を達成するための追加の通信を可能にする。
その結果、ACOWAは経験的リスク最小化に忠実で、他の分散アルゴリズムよりもかなり高い精度で解が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-03T19:43:06Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - Principal Ellipsoid Analysis (PEA): Efficient non-linear dimension
reduction & clustering [9.042239247913642]
本稿では,データとより柔軟なクラスタ形状の非線形関係を実現することにより,PCAとk平均の改善に焦点を当てる。
鍵となる貢献は、PCAに代わる単純で効率的な代替品を定義する、PEA(Principal Analysis)の新しいフレームワークである。
さまざまな実際のデータクラスタリングアプリケーションにおいて、PEAは単純なデータセットのためのk-meansと同様に機能し、より複雑な設定でパフォーマンスを劇的に改善する。
論文 参考訳(メタデータ) (2020-08-17T06:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。