論文の概要: Mean Estimation with User-level Privacy under Data Heterogeneity
- arxiv url: http://arxiv.org/abs/2307.15835v1
- Date: Fri, 28 Jul 2023 23:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 19:14:33.626933
- Title: Mean Estimation with User-level Privacy under Data Heterogeneity
- Title(参考訳): データ不均一性を考慮したユーザレベルのプライバシによる平均推定
- Authors: Rachel Cummings and Vitaly Feldman and Audra McMillan and Kunal Talwar
- Abstract要約: 異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
- 参考スコア(独自算出の注目度): 54.07947274508013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in many modern data analysis tasks is that user data are
heterogeneous. Different users may possess vastly different numbers of data
points. More importantly, it cannot be assumed that all users sample from the
same underlying distribution. This is true, for example in language data, where
different speech styles result in data heterogeneity. In this work we propose a
simple model of heterogeneous user data that allows user data to differ in both
distribution and quantity of data, and provide a method for estimating the
population-level mean while preserving user-level differential privacy. We
demonstrate asymptotic optimality of our estimator and also prove general lower
bounds on the error achievable in the setting we introduce.
- Abstract(参考訳): 現代の多くのデータ分析タスクにおける重要な課題は、ユーザデータが異種であることです。
異なるユーザーは膨大な数のデータポイントを持っているかもしれない。
さらに重要なことに、すべてのユーザが同じディストリビューションからサンプルを採取しているとは考えられない。
これは、例えば言語データでは、異なる音声スタイルがデータの不均一性をもたらす。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの簡単なモデルを提案するとともに,ユーザレベルの差分プライバシーを保ちながら,人口レベルの平均値を推定する方法を提案する。
我々は、推定器の漸近的最適性を示し、また我々が導入する設定で達成可能な誤差の一般的な下界も証明する。
関連論文リスト
- Empirical Mean and Frequency Estimation Under Heterogeneous Privacy: A Worst-Case Analysis [5.755004576310333]
微分プライバシー(DP)は、現在プライバシーを測定するための金の標準である。
異種プライバシー制約を考慮した一変量データに対する経験的平均推定とカテゴリーデータに対する周波数推定の問題点を考察する。
提案アルゴリズムは,PAC誤差と平均二乗誤差の両面から最適性を証明し,他のベースライン手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-15T22:46:02Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Differentially Private Multi-Party Data Release for Linear Regression [40.66319371232736]
Differentially Private (DP) データリリースは、データ対象のプライバシを損なうことなくデータを広める、有望なテクニックである。
本稿では、異なる利害関係者が同じデータ対象グループに属する不整合な属性セットを所有するマルチパーティ設定に焦点を当てる。
提案手法は,データセットサイズが増大する最適(プライベートでない)解に収束することを示す。
論文 参考訳(メタデータ) (2022-06-16T08:32:17Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Adversarial Deep Feature Extraction Network for User Independent Human
Activity Recognition [4.988898367111902]
本稿では,人間行動認識のための最大平均不一致(MMD)正則化を用いた対向的対象非依存特徴抽出法を提案する。
本手法は,ユーザに依存しない性能を著しく向上し,結果のばらつきを低減できることを示す,よく知られた公開データセット上での評価を行う。
論文 参考訳(メタデータ) (2021-10-23T07:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。