論文の概要: DPM: Clustering Sensitive Data through Separation
- arxiv url: http://arxiv.org/abs/2307.02969v1
- Date: Thu, 6 Jul 2023 13:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:06:26.845357
- Title: DPM: Clustering Sensitive Data through Separation
- Title(参考訳): DPM: 分離による感性データのクラスタリング
- Authors: Yara Sch\"utt, Johannes Liebenow, Tanya Braun, Marcel Gehrke, Florian
Thaeter, Esfandiar Mohammadi
- Abstract要約: 本稿では,差分的プライベートクラスタリングアルゴリズムDPMを導入し,差分的プライベートな方法で正確なデータポイントセパレータを探索する。
DPMは、クラスタ内の小さなギャップではなく、クラスタ間の大きなギャップであるセパレータを特定することと、データを大きなサブパートに分割するセパレータを優先して、プライバシ予算を効率的に使用することだ。
- 参考スコア(独自算出の注目度): 4.83266588800489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy-preserving clustering groups data points in an unsupervised manner
whilst ensuring that sensitive information remains protected. Previous
privacy-preserving clustering focused on identifying concentration of point
clouds. In this paper, we take another path and focus on identifying
appropriate separators that split a data set. We introduce the novel
differentially private clustering algorithm DPM that searches for accurate data
point separators in a differentially private manner. DPM addresses two key
challenges for finding accurate separators: identifying separators that are
large gaps between clusters instead of small gaps within a cluster and, to
efficiently spend the privacy budget, prioritising separators that split the
data into large subparts. Using the differentially private Exponential
Mechanism, DPM randomly chooses cluster separators with provably high utility:
For a data set $D$, if there is a wide low-density separator in the central
$60\%$ quantile, DPM finds that separator with probability $1 -
\exp(-\sqrt{|D|})$. Our experimental evaluation demonstrates that DPM achieves
significant improvements in terms of the clustering metric inertia. With the
inertia results of the non-private KMeans++ as a baseline, for $\varepsilon =
1$ and $\delta=10^{-5}$ DPM improves upon the difference to the baseline by up
to $50\%$ for a synthetic data set and by up to $62\%$ for a real-world data
set compared to a state-of-the-art clustering algorithm by Chang and Kamath.
- Abstract(参考訳): プライバシ保存型クラスタリンググループ データポイントは教師なしの方法で保護され、機密情報が保護される。
以前のプライバシ保存クラスタリングは、ポイントクラウドの集中度を特定することに重点を置いていた。
本稿では,データセットを分割する適切な分離子を特定することに着目する。
本稿では,差分プライベートな方法で正確なデータポイントセパレータを探索する,差分プライベートクラスタリングアルゴリズムdpmを提案する。
DPMは、クラスタ内の小さなギャップではなく、クラスタ間の大きなギャップであるセパレータを特定することと、データを大きなサブパートに分割するセパレータを優先して、プライバシ予算を効率的に使用することだ。
差分的にプライベートな指数メカニズムを用いて、DPMは証明可能な高いユーティリティを持つクラスタセパレータをランダムに選択する: データセットの$D$に対して、中央の$60\%$quantileに広い低密度セパレータがある場合、DPMは確率1\exp(-\sqrt{|D|})$でそのセパレータを見つける。
実験の結果,dpmはクラスタリング指標の慣性において有意な改善が得られた。
ベースラインとしての非プライベートkmeans++の慣性的な結果により、$\varepsilon = 1$と$\delta=10^{-5}$ dpmは、合成データセットに対して最大$50\%、changとkamathによる最先端クラスタリングアルゴリズムと比較して実世界のデータセットに対して最大$62\$でベースラインとの違いを改善している。
関連論文リスト
- A Unified Framework for Gradient-based Clustering of Distributed Data [51.904327888475606]
我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。
DGC-$mathcalF_rho$は、K$-meansやHuber Losといった一般的なクラスタリング損失に特化している。
DGC-$mathcalF_rho$のコンセンサス固定点は、全データ上の勾配クラスタリングの固定点と等価であることを示す。
論文 参考訳(メタデータ) (2024-02-02T10:44:42Z) - Differentially Private Clustering in Data Streams [65.78882209673885]
オフラインのDPコアセットやクラスタリングアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。
我々のフレームワークはまた、連続的なリリース設定の下で微分プライベートであり、すなわち、全てのタイムスタンプにおけるアルゴリズムの出力の和は常に微分プライベートである。
論文 参考訳(メタデータ) (2023-07-14T16:11:22Z) - AugDMC: Data Augmentation Guided Deep Multiple Clustering [2.479720095773358]
AugDMCは、Deep Multiple Clustering法による新しいデータ拡張ガイドである。
データ拡張を利用して、データの特定の側面に関連する機能を自動的に抽出する。
異なる拡張から不安定な問題を緩和するために、安定な最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-06-22T16:31:46Z) - DMS: Differentiable Mean Shift for Dataset Agnostic Task Specific
Clustering Using Side Information [0.0]
我々は、サイド情報から直接データをクラスタリングすることを学ぶ新しいアプローチを提案する。
クラスタの数、その中心、あるいは類似性に関するあらゆる種類の距離メートル法を知る必要はありません。
本手法は,特定のタスクのニーズに応じて,同じデータポイントを様々な方法で分割することができる。
論文 参考訳(メタデータ) (2023-05-29T13:45:49Z) - Efficient Distribution Similarity Identification in Clustered Federated
Learning via Principal Angles Between Client Data Subspaces [59.33965805898736]
クラスタ学習は、クライアントをクラスタにグループ化することで、有望な結果をもたらすことが示されている。
既存のFLアルゴリズムは基本的に、クライアントを同様のディストリビューションでグループ化しようとしている。
以前のFLアルゴリズムは、訓練中に間接的に類似性を試みていた。
論文 参考訳(メタデータ) (2022-09-21T17:37:54Z) - Socially Fair Center-based and Linear Subspace Clustering [8.355270405285909]
センターベースのクラスタリングと線形サブスペースクラスタリングは、現実世界のデータを小さなクラスタに分割する一般的なテクニックである。
異なる敏感なグループに対する1点当たりのクラスタリングコストは、公平性に関連する害をもたらす可能性がある。
本稿では,社会的に公平なセンタベースのクラスタリングと線形サブスペースクラスタリングを解決するための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T07:10:17Z) - Scalable Differentially Private Clustering via Hierarchically Separated
Trees [82.69664595378869]
我々は,最大$O(d3/2log n)cdot OPT + O(k d2 log2 n / epsilon2)$,$epsilon$はプライバシ保証であることを示す。
最悪の場合の保証は、最先端のプライベートクラスタリング手法よりも悪いが、提案するアルゴリズムは実用的である。
論文 参考訳(メタデータ) (2022-06-17T09:24:41Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Noise-robust Clustering [2.0199917525888895]
本稿では,教師なし機械学習におけるノイズロバストクラスタリング手法を提案する。
ノイズ、一貫性、その他の曖昧性に関する不確実性は、データ分析において深刻な障害となる可能性がある。
論文 参考訳(メタデータ) (2021-10-17T17:15:13Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。