論文の概要: Privacy-Preserving Record Linkage for Cardinality Counting
- arxiv url: http://arxiv.org/abs/2301.04000v1
- Date: Mon, 9 Jan 2023 07:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 17:29:37.955855
- Title: Privacy-Preserving Record Linkage for Cardinality Counting
- Title(参考訳): プライバシ保存記録の基数カウントへの応用
- Authors: Nan Wu, Dinusha Vatsalan, Mohamed Ali Kaafar, Sanath Kumar Ramesh
- Abstract要約: いくつかのアプリケーションでは、データの異なる項目の数をカウントする必要があるが、これは濃度カウント問題として知られている。
本稿では、教師なしクラスタリング手法を用いて、プライバシやアイデンティティを損なうことなく、複数のデータセットにおける個人の濃度をリンク・カウントする新しいプライバシ保存記録リンクアルゴリズムを提案する。
実データおよび合成データに対する実験結果は,最先端のファジィマッチングとクラスタリング法と比較して,プライバシー予算のエプシロン=1.0で0.1未満の誤差率で極めて有望である。
- 参考スコア(独自算出の注目度): 7.377804511088384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Several applications require counting the number of distinct items in the
data, which is known as the cardinality counting problem. Example applications
include health applications such as rare disease patients counting for adequate
awareness and funding, and counting the number of cases of a new disease for
outbreak detection, marketing applications such as counting the visibility
reached for a new product, and cybersecurity applications such as tracking the
number of unique views of social media posts. The data needed for the counting
is however often personal and sensitive, and need to be processed using
privacy-preserving techniques. The quality of data in different databases, for
example typos, errors and variations, poses additional challenges for accurate
cardinality estimation. While privacy-preserving cardinality counting has
gained much attention in the recent times and a few privacy-preserving
algorithms have been developed for cardinality estimation, no work has so far
been done on privacy-preserving cardinality counting using record linkage
techniques with fuzzy matching and provable privacy guarantees. We propose a
novel privacy-preserving record linkage algorithm using unsupervised clustering
techniques to link and count the cardinality of individuals in multiple
datasets without compromising their privacy or identity. In addition, existing
Elbow methods to find the optimal number of clusters as the cardinality are far
from accurate as they do not take into account the purity and completeness of
generated clusters. We propose a novel method to find the optimal number of
clusters in unsupervised learning. Our experimental results on real and
synthetic datasets are highly promising in terms of significantly smaller error
rate of less than 0.1 with a privacy budget {\epsilon} = 1.0 compared to the
state-of-the-art fuzzy matching and clustering method.
- Abstract(参考訳): いくつかの応用ではデータの異なる項目の数を数える必要があり、これは濃度計数問題として知られている。
例としては、適切な認識と資金提供を計るまれな疾患患者などの健康アプリケーション、アウトブレイク検出のための新しい病気の症例数を計数するアプリケーション、新製品が到達する可視性数を計るマーケティングアプリケーション、ソーシャルメディア投稿のユニークビュー数を追跡するサイバーセキュリティアプリケーションなどがある。
カウントに必要なデータは、多くの場合、個人的でセンシティブであり、プライバシ保存技術を使って処理する必要がある。
タイプミス、エラー、バリエーションなど、さまざまなデータベース内のデータの品質は、正確な濃度推定に新たな課題をもたらす。
近年,プライバシ保存濃度計数法が注目されているが,ファジィマッチングと証明可能なプライバシ保証を用いた記録リンク法を用いて,プライバシ保存濃度計数を行う手法が開発されている。
本稿では,非教師付きクラスタリング技術を用いて,プライバシやアイデンティティを損なうことなく,複数のデータセット内の個人の濃度をリンクしカウントする,新たなプライバシ保存レコードリンクアルゴリズムを提案する。
さらに、濃度として最適なクラスター数を求める既存の肘法は、生成したクラスターの純度と完全性を考慮していないため、正確ではない。
教師なし学習において最適なクラスタ数を求める新しい手法を提案する。
実データおよび合成データに対する実験結果は,最先端のファジィマッチングとクラスタリング法と比較して,プライバシー予算(epsilon)=1.0の0.1未満の誤差率で極めて有望である。
関連論文リスト
- Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - Privacy Induces Robustness: Information-Computation Gaps and Sparse Mean
Estimation [8.9598796481325]
本稿では, アルゴリズムと計算複雑性の両面において, 異なる統計問題に対する観測結果について検討する。
プライベートスパース平均推定のための情報計算ギャップを確立する。
また、プライバシーによって引き起こされる情報計算のギャップを、いくつかの統計や学習問題に対して証明する。
論文 参考訳(メタデータ) (2022-11-01T20:03:41Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Near-Optimal Correlation Clustering with Privacy [37.94795032297396]
相関クラスタリングは教師なし学習における中心的な問題である。
本稿では,相関クラスタリング問題と証明可能なプライバシ保証のための,シンプルで効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-02T22:30:19Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Frequent Itemset-driven Search for Finding Minimum Node Separators in
Complex Networks [61.2383572324176]
本稿では,データマイニングにおける頻繁なアイテムセットマイニングの概念をよく知られたメメティック検索フレームワークに統合する,頻繁なアイテムセット駆動探索手法を提案する。
頻繁なアイテムセット組換え演算子を反復的に使用して、高品質なソリューションで頻繁に発生するアイテムセットに基づいた有望な子孫ソリューションを生成する。
特に、29個の新しい上界を発見し、以前の18個の最もよく知られた境界と一致する。
論文 参考訳(メタデータ) (2022-01-18T11:16:40Z) - Robust and Differentially Private Mean Estimation [40.323756738056616]
異なるプライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションで標準要件として浮上しています。
このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。
これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。
論文 参考訳(メタデータ) (2021-02-18T05:02:49Z) - A random shuffle method to expand a narrow dataset and overcome the
associated challenges in a clinical study: a heart failure cohort example [50.591267188664666]
本研究の目的は、統計的に合法なHFデータセットのカーディナリティを高めるためにランダムシャッフル法を設計することであった。
提案されたランダムシャッフル法は、HFデータセットのカーディナリティを10回、およびランダムな繰り返し測定アプローチに続いて21回向上させることができた。
論文 参考訳(メタデータ) (2020-12-12T10:59:38Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Differentially Private k-Means Clustering with Guaranteed Convergence [5.335316436366718]
反復的なクラスタリングアルゴリズムは、データの背後にある洞察を学習するのに役立ちます。
敵は、背景知識によって個人のプライバシーを推測することができる。
このような推論攻撃に対して個人のプライバシを保護するため、反復クラスタリングアルゴリズムの差分プライバシー(DP)を広く研究している。
論文 参考訳(メタデータ) (2020-02-03T22:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。