論文の概要: A Unified Framework for Gradient-based Clustering of Distributed Data
- arxiv url: http://arxiv.org/abs/2402.01302v1
- Date: Fri, 2 Feb 2024 10:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:51:41.715086
- Title: A Unified Framework for Gradient-based Clustering of Distributed Data
- Title(参考訳): 分散データの勾配に基づくクラスタリングのための統一フレームワーク
- Authors: Aleksandar Armacki, Dragana Bajovi\'c, Du\v{s}an Jakoveti\'c, Soummya
Kar
- Abstract要約: 我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。
DGC-$mathcalF_rho$は、K$-meansやHuber Losといった一般的なクラスタリング損失に特化している。
DGC-$mathcalF_rho$のコンセンサス固定点は、全データ上の勾配クラスタリングの固定点と等価であることを示す。
- 参考スコア(独自算出の注目度): 51.904327888475606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a family of distributed clustering algorithms that work over
networks of users. In the proposed scenario, users contain a local dataset and
communicate only with their immediate neighbours, with the aim of finding a
clustering of the full, joint data. The proposed family, termed Distributed
Gradient Clustering (DGC-$\mathcal{F}_\rho$), is parametrized by $\rho \geq 1$,
controling the proximity of users' center estimates, with $\mathcal{F}$
determining the clustering loss. Specialized to popular clustering losses like
$K$-means and Huber loss, DGC-$\mathcal{F}_\rho$ gives rise to novel
distributed clustering algorithms DGC-KM$_\rho$ and DGC-HL$_\rho$, while a
novel clustering loss based on the logistic function leads to DGC-LL$_\rho$. We
provide a unified analysis and establish several strong results, under mild
assumptions. First, the sequence of centers generated by the methods converges
to a well-defined notion of fixed point, under any center initialization and
value of $\rho$. Second, as $\rho$ increases, the family of fixed points
produced by DGC-$\mathcal{F}_\rho$ converges to a notion of consensus fixed
points. We show that consensus fixed points of DGC-$\mathcal{F}_{\rho}$ are
equivalent to fixed points of gradient clustering over the full data,
guaranteeing a clustering of the full data is produced. For the special case of
Bregman losses, we show that our fixed points converge to the set of Lloyd
points. Numerical experiments on real data confirm our theoretical findings and
demonstrate strong performance of the methods.
- Abstract(参考訳): 我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。
提案したシナリオでは、ユーザはローカルデータセットを格納し、隣人とのみ通信し、完全なジョイントデータのクラスタリングを見つけることを目的としている。
DGC-$\mathcal{F}_\rho$と呼ばれる提案されたファミリーは、$\rho \geq 1$によってパラメータ化され、クラスタリング損失を$\mathcal{F}$で決定する。
k$-means や huber loss のような一般的なクラスタリングの損失に特化し、dgc-$\mathcal{f}_\rho$ は新たな分散クラスタリングアルゴリズム dgc-km$_\rho$ と dgc-hl$_\rho$ を生み出し、ロジスティック関数に基づく新しいクラスタリングの損失は dgc-ll$_\rho$ をもたらす。
我々は統一的な分析を行い,軽度の仮定のもとにいくつかの強い結果を確立した。
まず、メソッドによって生成される中心の列は、任意の中心初期化と$\rho$の値の下で、よく定義された固定点の概念に収束する。
次に、$\rho$が増加するにつれて、DGC-$\mathcal{F}_\rho$ によって生成される固定点の族は、コンセンサス固定点の概念に収束する。
DGC-$\mathcal{F}_{\rho}$のコンセンサス固定点は、全データの上の勾配クラスタリングの固定点と同値であり、全データのクラスタリングが生成されることを保証する。
ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。
実データに関する数値実験により,理論的な結果を確認し,その性能を実証した。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Dink-Net: Neural Clustering on Large Graphs [59.10189693120368]
ディープグラフクラスタリング法 (Dink-Net) は, 拡張と縮小という概念を用いて提案される。
ノードを識別することにより、拡張によって劣化しても、表現は自己教師された方法で学習される。
クラスタリング分布は、提案したクラスタ拡張損失とクラスタ縮小損失を最小化することにより最適化される。
ランナアップと比較して、Dink-Net 9.62%は1100万ノードと16億エッジを持つogbn-papers100MデータセットでNMIの改善を実現している。
論文 参考訳(メタデータ) (2023-05-28T15:33:24Z) - Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:43:16Z) - Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文 参考訳(メタデータ) (2021-07-30T06:13:56Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic
Analysis [14.048989759890475]
我々は、$Ld$次元のサンプルを$d$次元のベクトルのデータセットから$Ld$次元のクラスタセンターに結合することで得られる$Ld$次元のサンプルを定量化することを検討する。
クラスタセンターの数が多いレジームにおける平均的性能歪みの式を求める。
元の(ノイズのない)データセットへの忠実さに関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-23T17:14:28Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Exact Recovery of Mangled Clusters with Same-Cluster Queries [20.03712152278538]
半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。
我々は、$n$ポイントを$k$クラスタに分割するアルゴリズムを設計し、$O(k3 ln k ln n)$oracleクエリと$tildeO(kn + k3)$でクラスタを非分類エラーで復元する。
論文 参考訳(メタデータ) (2020-06-08T15:27:58Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。