論文の概要: Differentially Private Federated $k$-Means Clustering with Server-Side Data
- arxiv url: http://arxiv.org/abs/2506.05408v2
- Date: Wed, 11 Jun 2025 09:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.261437
- Title: Differentially Private Federated $k$-Means Clustering with Server-Side Data
- Title(参考訳): サーバサイドデータによる異なるプライベートな$k$-Meansクラスタリング
- Authors: Jonathan Scott, Christoph H. Lampert, David Saulpic,
- Abstract要約: FedDP-KMeansは$k$-meansクラスタリングのためのアルゴリズムで、完全なフェデレーションと差分プライベートである。
提案アルゴリズムは,合成および実世界のベンチマークタスクにおいて優れた結果が得られる。
- 参考スコア(独自算出の注目度): 19.962475029447127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a cornerstone of data analysis that is particularly suited to identifying coherent subgroups or substructures in unlabeled data, as are generated continuously in large amounts these days. However, in many cases traditional clustering methods are not applicable, because data are increasingly being produced and stored in a distributed way, e.g. on edge devices, and privacy concerns prevent it from being transferred to a central server. To address this challenge, we present FedDP-KMeans, a new algorithm for $k$-means clustering that is fully-federated as well as differentially private. Our approach leverages (potentially small and out-of-distribution) server-side data to overcome the primary challenge of differentially private clustering methods: the need for a good initialization. Combining our initialization with a simple federated DP-Lloyds algorithm we obtain an algorithm that achieves excellent results on synthetic and real-world benchmark tasks. We also provide a theoretical analysis of our method that provides bounds on the convergence speed and cluster identification success.
- Abstract(参考訳): クラスタリングはデータ分析の基盤であり、最近の大規模で連続的に生成されるように、ラベルなしデータのコヒーレントなサブグループやサブ構造を特定するのに特に適している。
しかし、多くの場合、従来のクラスタリング手法は適用できない。なぜなら、データがますます分散的に生成され、保存され、例えばエッジデバイス上では、プライバシー上の懸念により、中央サーバに転送されるのを防ぐためである。
この課題に対処するために、我々は$k$-meansクラスタリングのための新しいアルゴリズムであるFedDP-KMeansを紹介します。
当社のアプローチでは,サーバ側データ(潜在的に小さく,配布外)を活用して,優れた初期化の必要性という,差分プライベートなクラスタリング手法の主な課題を克服しています。
我々の初期化と単純な DP-Lloyds アルゴリズムを組み合わせることで、合成および実世界のベンチマークタスクにおいて優れた結果が得られるアルゴリズムを得る。
また,収束速度とクラスタ識別成功のバウンダリを提供する理論解析を行った。
関連論文リスト
- Dynamically Weighted Federated k-Means [0.0]
フェデレートされたクラスタリングにより、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシ保護を維持できる。
我々は,ロイドのk-meansクラスタリング法に基づいて,動的に重み付けされたk-means (DWF k-means) という新しいクラスタリングアルゴリズムを提案する。
我々は、クラスタリングスコア、精度、およびv尺度の観点から、アルゴリズムの性能を評価するために、複数のデータセットとデータ分散設定の実験を行う。
論文 参考訳(メタデータ) (2023-10-23T12:28:21Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Privacy-Preserving Federated Deep Clustering based on GAN [12.256298398007848]
我々はGAN(Generative Adversarial Networks)に基づくフェデレーションディープクラスタリングへの新しいアプローチを提案する。
各クライアントは、ローカルな生成敵ネットワーク(GAN)をローカルにトレーニングし、合成データをサーバにアップロードする。
サーバは合成データに深いクラスタリングネットワークを適用して$k$のクラスタセントロイドを確立し、クラスタ割り当てのためにクライアントにダウンロードする。
論文 参考訳(メタデータ) (2022-11-30T13:20:11Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。