Fugu-MT 論文翻訳(概要): A Unified Framework for Gradient-based Clustering of Distributed Data

論文の概要: A Unified Framework for Gradient-based Clustering of Distributed Data

arxiv url: http://arxiv.org/abs/2402.01302v1
Date: Fri, 2 Feb 2024 10:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 15:51:41.715086
Title: A Unified Framework for Gradient-based Clustering of Distributed Data
Title（参考訳）: 分散データの勾配に基づくクラスタリングのための統一フレームワーク
Authors: Aleksandar Armacki, Dragana Bajovi\'c, Du\v{s}an Jakoveti\'c, Soummya Kar
Abstract要約: 我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。 DGC-$mathcalF_rho$は、K$-meansやHuber Losといった一般的なクラスタリング損失に特化している。 DGC-$mathcalF_rho$のコンセンサス固定点は、全データ上の勾配クラスタリングの固定点と等価であることを示す。
参考スコア（独自算出の注目度）: 51.904327888475606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop a family of distributed clustering algorithms that work over networks of users. In the proposed scenario, users contain a local dataset and communicate only with their immediate neighbours, with the aim of finding a clustering of the full, joint data. The proposed family, termed Distributed Gradient Clustering (DGC-$\mathcal{F}_\rho$), is parametrized by $\rho \geq 1$, controling the proximity of users' center estimates, with $\mathcal{F}$ determining the clustering loss. Specialized to popular clustering losses like $K$-means and Huber loss, DGC-$\mathcal{F}_\rho$ gives rise to novel distributed clustering algorithms DGC-KM$_\rho$ and DGC-HL$_\rho$, while a novel clustering loss based on the logistic function leads to DGC-LL$_\rho$. We provide a unified analysis and establish several strong results, under mild assumptions. First, the sequence of centers generated by the methods converges to a well-defined notion of fixed point, under any center initialization and value of $\rho$. Second, as $\rho$ increases, the family of fixed points produced by DGC-$\mathcal{F}_\rho$ converges to a notion of consensus fixed points. We show that consensus fixed points of DGC-$\mathcal{F}_{\rho}$ are equivalent to fixed points of gradient clustering over the full data, guaranteeing a clustering of the full data is produced. For the special case of Bregman losses, we show that our fixed points converge to the set of Lloyd points. Numerical experiments on real data confirm our theoretical findings and demonstrate strong performance of the methods.
Abstract（参考訳）: 我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。提案したシナリオでは、ユーザはローカルデータセットを格納し、隣人とのみ通信し、完全なジョイントデータのクラスタリングを見つけることを目的としている。 DGC-$\mathcal{F}_\rho$と呼ばれる提案されたファミリーは、$\rho \geq 1$によってパラメータ化され、クラスタリング損失を$\mathcal{F}$で決定する。 k$-means や huber loss のような一般的なクラスタリングの損失に特化し、dgc-$\mathcal{f}_\rho$ は新たな分散クラスタリングアルゴリズム dgc-km$_\rho$ と dgc-hl$_\rho$ を生み出し、ロジスティック関数に基づく新しいクラスタリングの損失は dgc-ll$_\rho$ をもたらす。我々は統一的な分析を行い,軽度の仮定のもとにいくつかの強い結果を確立した。まず、メソッドによって生成される中心の列は、任意の中心初期化と$\rho$の値の下で、よく定義された固定点の概念に収束する。次に、$\rho$が増加するにつれて、DGC-$\mathcal{F}_\rho$ によって生成される固定点の族は、コンセンサス固定点の概念に収束する。 DGC-$\mathcal{F}_{\rho}$のコンセンサス固定点は、全データの上の勾配クラスタリングの固定点と同値であり、全データのクラスタリングが生成されることを保証する。ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。実データに関する数値実験により,理論的な結果を確認し,その性能を実証した。

関連論文リスト

Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T05:10:40Z)
Generalization Performance of Ensemble Clustering: From Theory to Algorithm [57.176040163699554]
本稿では,アンサンブルクラスタリングにおける一般化誤差,過剰リスク,一貫性に着目した。有限クラスタリングに様々な重みを割り当てることで、経験的平均クラスタリングと期待値との誤差を最小化する。我々は、新しいアンサンブルクラスタリングアルゴリズムを開発するために、我々の理論をインスタンス化する。
論文参考訳（メタデータ） (2025-06-01T09:34:52Z)
Linear Programming based Approximation to Individually Fair k-Clustering with Outliers [1.4460482276563802]
我々は、外れ値を含むデータセットに対して、個別に公平な$k$-meansクラスタリングアルゴリズムを開発する。アウトリーでない各点に対して、与えられた点の最も近い近傍に$fracnk$の中心が存在する必要がある。我々は,本手法が正半径とクラスタリングコストの保証された近似につながることを理論的に保証する。
論文参考訳（メタデータ） (2024-12-14T18:16:46Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文参考訳（メタデータ） (2023-08-13T18:12:28Z)
Dink-Net: Neural Clustering on Large Graphs [59.10189693120368]
ディープグラフクラスタリング法 (Dink-Net) は, 拡張と縮小という概念を用いて提案される。ノードを識別することにより、拡張によって劣化しても、表現は自己教師された方法で学習される。クラスタリング分布は、提案したクラスタ拡張損失とクラスタ縮小損失を最小化することにより最適化される。ランナアップと比較して、Dink-Net 9.62%は1100万ノードと16億エッジを持つogbn-papers100MデータセットでNMIの改善を実現している。
論文参考訳（メタデータ） (2023-05-28T15:33:24Z)
Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。 SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文参考訳（メタデータ） (2022-09-14T23:43:16Z)
Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか? 本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文参考訳（メタデータ） (2021-07-30T06:13:56Z)
K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文参考訳（メタデータ） (2021-03-16T21:14:56Z)
Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic Analysis [14.048989759890475]
我々は、$Ld$次元のサンプルを$d$次元のベクトルのデータセットから$Ld$次元のクラスタセンターに結合することで得られる$Ld$次元のサンプルを定量化することを検討する。クラスタセンターの数が多いレジームにおける平均的性能歪みの式を求める。元の(ノイズのない)データセットへの忠実さに関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れています。
論文参考訳（メタデータ） (2020-10-23T17:14:28Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Exact Recovery of Mangled Clusters with Same-Cluster Queries [20.03712152278538]
半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。我々は、$n$ポイントを$k$クラスタに分割するアルゴリズムを設計し、$O(k3 ln k ln n)$oracleクエリと$tildeO(kn + k3)$でクラスタを非分類エラーで復元する。
論文参考訳（メタデータ） (2020-06-08T15:27:58Z)
Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文参考訳（メタデータ） (2020-05-21T17:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。