論文の概要: DPM: Clustering Sensitive Data through Separation
- arxiv url: http://arxiv.org/abs/2307.02969v1
- Date: Thu, 6 Jul 2023 13:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:06:26.845357
- Title: DPM: Clustering Sensitive Data through Separation
- Title(参考訳): DPM: 分離による感性データのクラスタリング
- Authors: Yara Sch\"utt, Johannes Liebenow, Tanya Braun, Marcel Gehrke, Florian
Thaeter, Esfandiar Mohammadi
- Abstract要約: 本稿では,差分的プライベートクラスタリングアルゴリズムDPMを導入し,差分的プライベートな方法で正確なデータポイントセパレータを探索する。
DPMは、クラスタ内の小さなギャップではなく、クラスタ間の大きなギャップであるセパレータを特定することと、データを大きなサブパートに分割するセパレータを優先して、プライバシ予算を効率的に使用することだ。
- 参考スコア(独自算出の注目度): 4.83266588800489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy-preserving clustering groups data points in an unsupervised manner
whilst ensuring that sensitive information remains protected. Previous
privacy-preserving clustering focused on identifying concentration of point
clouds. In this paper, we take another path and focus on identifying
appropriate separators that split a data set. We introduce the novel
differentially private clustering algorithm DPM that searches for accurate data
point separators in a differentially private manner. DPM addresses two key
challenges for finding accurate separators: identifying separators that are
large gaps between clusters instead of small gaps within a cluster and, to
efficiently spend the privacy budget, prioritising separators that split the
data into large subparts. Using the differentially private Exponential
Mechanism, DPM randomly chooses cluster separators with provably high utility:
For a data set $D$, if there is a wide low-density separator in the central
$60\%$ quantile, DPM finds that separator with probability $1 -
\exp(-\sqrt{|D|})$. Our experimental evaluation demonstrates that DPM achieves
significant improvements in terms of the clustering metric inertia. With the
inertia results of the non-private KMeans++ as a baseline, for $\varepsilon =
1$ and $\delta=10^{-5}$ DPM improves upon the difference to the baseline by up
to $50\%$ for a synthetic data set and by up to $62\%$ for a real-world data
set compared to a state-of-the-art clustering algorithm by Chang and Kamath.
- Abstract(参考訳): プライバシ保存型クラスタリンググループ データポイントは教師なしの方法で保護され、機密情報が保護される。
以前のプライバシ保存クラスタリングは、ポイントクラウドの集中度を特定することに重点を置いていた。
本稿では,データセットを分割する適切な分離子を特定することに着目する。
本稿では,差分プライベートな方法で正確なデータポイントセパレータを探索する,差分プライベートクラスタリングアルゴリズムdpmを提案する。
DPMは、クラスタ内の小さなギャップではなく、クラスタ間の大きなギャップであるセパレータを特定することと、データを大きなサブパートに分割するセパレータを優先して、プライバシ予算を効率的に使用することだ。
差分的にプライベートな指数メカニズムを用いて、DPMは証明可能な高いユーティリティを持つクラスタセパレータをランダムに選択する: データセットの$D$に対して、中央の$60\%$quantileに広い低密度セパレータがある場合、DPMは確率1\exp(-\sqrt{|D|})$でそのセパレータを見つける。
実験の結果,dpmはクラスタリング指標の慣性において有意な改善が得られた。
ベースラインとしての非プライベートkmeans++の慣性的な結果により、$\varepsilon = 1$と$\delta=10^{-5}$ dpmは、合成データセットに対して最大$50\%、changとkamathによる最先端クラスタリングアルゴリズムと比較して実世界のデータセットに対して最大$62\$でベースラインとの違いを改善している。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - AugDMC: Data Augmentation Guided Deep Multiple Clustering [2.479720095773358]
AugDMCは、Deep Multiple Clustering法による新しいデータ拡張ガイドである。
データ拡張を利用して、データの特定の側面に関連する機能を自動的に抽出する。
異なる拡張から不安定な問題を緩和するために、安定な最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-06-22T16:31:46Z) - DMS: Differentiable Mean Shift for Dataset Agnostic Task Specific
Clustering Using Side Information [0.0]
我々は、サイド情報から直接データをクラスタリングすることを学ぶ新しいアプローチを提案する。
クラスタの数、その中心、あるいは類似性に関するあらゆる種類の距離メートル法を知る必要はありません。
本手法は,特定のタスクのニーズに応じて,同じデータポイントを様々な方法で分割することができる。
論文 参考訳(メタデータ) (2023-05-29T13:45:49Z) - ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文 参考訳(メタデータ) (2023-04-27T13:41:12Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - A Prototype-Oriented Clustering for Domain Shift with Source Privacy [66.67700676888629]
本稿では,PCD(Prototype-oriented Clustering with Distillation)を導入し,既存の手法の性能と適用性を向上させる。
PCDはまず、プロトタイプとデータの分布を整列することで、ソースクラスタリングモデルを構築する。
その後、ソースモデルが提供するクラスタラベルを通じてターゲットモデルに知識を蒸留し、同時にターゲットデータをクラスタ化する。
論文 参考訳(メタデータ) (2023-02-08T00:15:35Z) - Privacy-Preserving Federated Deep Clustering based on GAN [12.256298398007848]
我々はGAN(Generative Adversarial Networks)に基づくフェデレーションディープクラスタリングへの新しいアプローチを提案する。
各クライアントは、ローカルな生成敵ネットワーク(GAN)をローカルにトレーニングし、合成データをサーバにアップロードする。
サーバは合成データに深いクラスタリングネットワークを適用して$k$のクラスタセントロイドを確立し、クラスタ割り当てのためにクライアントにダウンロードする。
論文 参考訳(メタデータ) (2022-11-30T13:20:11Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。