論文の概要: DPM: Clustering Sensitive Data through Separation
- arxiv url: http://arxiv.org/abs/2307.02969v3
- Date: Tue, 20 Aug 2024 08:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 21:01:16.565377
- Title: DPM: Clustering Sensitive Data through Separation
- Title(参考訳): DPM: 分離による感性データのクラスタリング
- Authors: Johannes Liebenow, Yara Schütt, Tanya Braun, Marcel Gehrke, Florian Thaeter, Esfandiar Mohammadi,
- Abstract要約: 幾何学的クラスタリングアプローチに基づいてデータセットをクラスタに分離するDPMと呼ばれるプライバシ保護クラスタリングアルゴリズムを提案する。
我々は,DPMが標準クラスタリング指標の最先端性を実現し,一般的なKMeansアルゴリズムに近いクラスタリング結果が得られることを示す。
- 参考スコア(独自算出の注目度): 2.2179058122448922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is an important tool for data exploration where the goal is to subdivide a data set into disjoint clusters that fit well into the underlying data structure. When dealing with sensitive data, privacy-preserving algorithms aim to approximate the non-private baseline while minimising the leakage of sensitive information. State-of-the-art privacy-preserving clustering algorithms tend to output clusters that are good in terms of the standard metrics, inertia, silhouette score, and clustering accuracy, however, the clustering result strongly deviates from the non-private KMeans baseline. In this work, we present a privacy-preserving clustering algorithm called DPM that recursively separates a data set into clusters based on a geometrical clustering approach. In addition, DPM estimates most of the data-dependent hyper-parameters in a privacy-preserving way. We prove that DPM preserves Differential Privacy and analyse the utility guarantees of DPM. Finally, we conduct an extensive empirical evaluation for synthetic and real-life data sets. We show that DPM achieves state-of-the-art utility on the standard clustering metrics and yields a clustering result much closer to that of the popular non-private KMeans algorithm without requiring the number of classes.
- Abstract(参考訳): クラスタリングは、データセットを、基盤となるデータ構造によく適合する不整合クラスタに分割することを目的としている、データ探索のための重要なツールである。
機密データを扱う場合、プライバシー保護アルゴリズムは機密情報の漏洩を最小限に抑えつつ、プライベートでないベースラインを近似することを目的としている。
最先端のプライバシ保存クラスタリングアルゴリズムは、標準メトリクス、慣性、シルエットスコア、クラスタリング精度の点で優れたクラスタを出力する傾向にあるが、クラスタリング結果は非プライベートなKMeansベースラインから強く逸脱する。
本研究では,幾何的クラスタリングアプローチに基づいて,データセットをクラスタに再帰的に分離するDPMというプライバシ保護クラスタリングアルゴリズムを提案する。
さらに、DPMはデータ依存のハイパーパラメータの大部分をプライバシ保護の方法で見積もっている。
我々はDPMが識別プライバシーを保持し、DPMの実用性保証を分析することを証明した。
最後に,合成および実生活データセットに対する広範な実験評価を行う。
我々は,DPMが標準クラスタリングメトリクスの最先端性を実現し,クラス数を必要とせずに,一般的なKMeansアルゴリズムに近いクラスタリング結果が得られることを示す。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - AugDMC: Data Augmentation Guided Deep Multiple Clustering [2.479720095773358]
AugDMCは、Deep Multiple Clustering法による新しいデータ拡張ガイドである。
データ拡張を利用して、データの特定の側面に関連する機能を自動的に抽出する。
異なる拡張から不安定な問題を緩和するために、安定な最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-06-22T16:31:46Z) - DMS: Differentiable Mean Shift for Dataset Agnostic Task Specific
Clustering Using Side Information [0.0]
我々は、サイド情報から直接データをクラスタリングすることを学ぶ新しいアプローチを提案する。
クラスタの数、その中心、あるいは類似性に関するあらゆる種類の距離メートル法を知る必要はありません。
本手法は,特定のタスクのニーズに応じて,同じデータポイントを様々な方法で分割することができる。
論文 参考訳(メタデータ) (2023-05-29T13:45:49Z) - ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文 参考訳(メタデータ) (2023-04-27T13:41:12Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - A Prototype-Oriented Clustering for Domain Shift with Source Privacy [66.67700676888629]
本稿では,PCD(Prototype-oriented Clustering with Distillation)を導入し,既存の手法の性能と適用性を向上させる。
PCDはまず、プロトタイプとデータの分布を整列することで、ソースクラスタリングモデルを構築する。
その後、ソースモデルが提供するクラスタラベルを通じてターゲットモデルに知識を蒸留し、同時にターゲットデータをクラスタ化する。
論文 参考訳(メタデータ) (2023-02-08T00:15:35Z) - Privacy-Preserving Federated Deep Clustering based on GAN [12.256298398007848]
我々はGAN(Generative Adversarial Networks)に基づくフェデレーションディープクラスタリングへの新しいアプローチを提案する。
各クライアントは、ローカルな生成敵ネットワーク(GAN)をローカルにトレーニングし、合成データをサーバにアップロードする。
サーバは合成データに深いクラスタリングネットワークを適用して$k$のクラスタセントロイドを確立し、クラスタ割り当てのためにクライアントにダウンロードする。
論文 参考訳(メタデータ) (2022-11-30T13:20:11Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。