論文の概要: Learning from Aggregated Data: Curated Bags versus Random Bags
- arxiv url: http://arxiv.org/abs/2305.09557v2
- Date: Thu, 18 May 2023 17:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:35:07.041932
- Title: Learning from Aggregated Data: Curated Bags versus Random Bags
- Title(参考訳): 集約されたデータから学ぶ:キュレートされたバッグとランダムなバッグ
- Authors: Lin Chen, Gang Fu, Amin Karbasi, Vahab Mirrokni
- Abstract要約: 我々は、個々のラベルではなく、集約されたデータラベルで機械学習モデルをトレーニングする可能性を探る。
キュレートしたバッグ設定では,性能の劣化を伴わずに勾配に基づく学習が可能であることを示す。
ランダムなバッグ設定では、バッグのサイズと達成可能なエラー率との間のトレードオフがある。
- 参考スコア(独自算出の注目度): 35.394402088653415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting user privacy is a major concern for many machine learning systems
that are deployed at scale and collect from a diverse set of population. One
way to address this concern is by collecting and releasing data labels in an
aggregated manner so that the information about a single user is potentially
combined with others. In this paper, we explore the possibility of training
machine learning models with aggregated data labels, rather than individual
labels. Specifically, we consider two natural aggregation procedures suggested
by practitioners: curated bags where the data points are grouped based on
common features and random bags where the data points are grouped randomly in
bag of similar sizes. For the curated bag setting and for a broad range of loss
functions, we show that we can perform gradient-based learning without any
degradation in performance that may result from aggregating data. Our method is
based on the observation that the sum of the gradients of the loss function on
individual data examples in a curated bag can be computed from the aggregate
label without the need for individual labels. For the random bag setting, we
provide a generalization risk bound based on the Rademacher complexity of the
hypothesis class and show how empirical risk minimization can be regularized to
achieve the smallest risk bound. In fact, in the random bag setting, there is a
trade-off between size of the bag and the achievable error rate as our bound
indicates. Finally, we conduct a careful empirical study to confirm our
theoretical findings. In particular, our results suggest that aggregate
learning can be an effective method for preserving user privacy while
maintaining model accuracy.
- Abstract(参考訳): ユーザのプライバシ保護は、大規模にデプロイされ、さまざまな集団から収集される多くの機械学習システムにとって、大きな関心事である。
この懸念に対処する1つの方法は、単一のユーザに関する情報が他のユーザと組み合わせられるように、集約された方法でデータラベルを収集し、リリースすることである。
本稿では,個々のラベルではなく,集約データラベルを用いた機械学習モデルのトレーニングの可能性を検討する。
具体的には,共通の特徴に基づいてデータポイントをグループ化するキュレーションバッグと,同じサイズのバッグにデータポイントをランダムにグループ化するランダムバッグの2つについて検討した。
計算したバッグ設定や幅広い損失関数に対して,データの集約によって生じる可能性のある性能劣化を伴わずに勾配学習を行うことができることを示す。
本手法は,個々のラベルを必要とせずに,キュレートされたバッグ内の個々のデータ例に対する損失関数の勾配の和を集約ラベルから計算できるという観測に基づく。
ランダムバッグ設定では,仮説クラスのラデマッハ複雑性に基づく一般化リスクバウンドを提供し,最小のリスクバウンドを達成するために経験的リスク最小化をどのように実現するかを示す。
実際、ランダムバッグの設定では、バウンドが示すように、バッグのサイズと達成可能なエラー率との間にトレードオフがあります。
最後に,理論的な知見を確認するために,注意深く実験研究を行う。
特に,集合学習は,モデルの精度を維持しつつ,ユーザのプライバシーを守る効果的な方法であることが示唆された。
関連論文リスト
- Learning from Aggregate responses: Instance Level versus Bag Level Loss
Functions [23.32422115080128]
多くの実践的アプリケーションでは、学習者のプライバシを保護するために、学習者と共有する前にトレーニングデータを集約する。
本研究では,バッグレベルの損失とインスタンスレベルの損失の2つの自然損失関数について検討した。
本稿では,アグリゲート応答からの個人学習のメカニズムを提案し,リスクプライバシトレードオフの予測の観点から最適なバッグサイズを導出する。
論文 参考訳(メタデータ) (2024-01-20T02:14:11Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Nested Multiple Instance Learning with Attention Mechanisms [2.6552823781152366]
多重インスタンス学習(MIL)は、未知のラベルを持つデータの複数のインスタンスをバッグに分類する弱い教師付き学習の一種である。
我々は,最外側のバッグのみをラベル付けし,インスタンスを潜在ラベルとして表現するNested MILを提案する。
提案モデルでは,画像領域における関連インスタンスの発見とともに,高精度な性能を実現する。
論文 参考訳(メタデータ) (2021-11-01T13:41:09Z) - Fast learning from label proportions with small bags [0.0]
ラベルパーセンテージ(LLP)から学ぶ場合、インスタンスはバッグにグループ化され、トレーニングバッグの相対クラスパーセンテージが与えられたインスタンス分類器を学習する。
本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-07T13:11:18Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Certainty Pooling for Multiple Instance Learning [0.6299766708197883]
我々は、モデル確実性をバッグ予測に組み込んだ、textbfCertainty Poolingと呼ばれる新しいプール演算子を提案する。
本手法は,バッグレベルとインスタンスレベルの予測において,特に小規模なトレーニングセットのみが利用できる場合において,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-08-24T16:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。