論文の概要: Learning from Aggregated Data: Curated Bags versus Random Bags
- arxiv url: http://arxiv.org/abs/2305.09557v2
- Date: Thu, 18 May 2023 17:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:35:07.041932
- Title: Learning from Aggregated Data: Curated Bags versus Random Bags
- Title(参考訳): 集約されたデータから学ぶ:キュレートされたバッグとランダムなバッグ
- Authors: Lin Chen, Gang Fu, Amin Karbasi, Vahab Mirrokni
- Abstract要約: 我々は、個々のラベルではなく、集約されたデータラベルで機械学習モデルをトレーニングする可能性を探る。
キュレートしたバッグ設定では,性能の劣化を伴わずに勾配に基づく学習が可能であることを示す。
ランダムなバッグ設定では、バッグのサイズと達成可能なエラー率との間のトレードオフがある。
- 参考スコア(独自算出の注目度): 35.394402088653415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting user privacy is a major concern for many machine learning systems
that are deployed at scale and collect from a diverse set of population. One
way to address this concern is by collecting and releasing data labels in an
aggregated manner so that the information about a single user is potentially
combined with others. In this paper, we explore the possibility of training
machine learning models with aggregated data labels, rather than individual
labels. Specifically, we consider two natural aggregation procedures suggested
by practitioners: curated bags where the data points are grouped based on
common features and random bags where the data points are grouped randomly in
bag of similar sizes. For the curated bag setting and for a broad range of loss
functions, we show that we can perform gradient-based learning without any
degradation in performance that may result from aggregating data. Our method is
based on the observation that the sum of the gradients of the loss function on
individual data examples in a curated bag can be computed from the aggregate
label without the need for individual labels. For the random bag setting, we
provide a generalization risk bound based on the Rademacher complexity of the
hypothesis class and show how empirical risk minimization can be regularized to
achieve the smallest risk bound. In fact, in the random bag setting, there is a
trade-off between size of the bag and the achievable error rate as our bound
indicates. Finally, we conduct a careful empirical study to confirm our
theoretical findings. In particular, our results suggest that aggregate
learning can be an effective method for preserving user privacy while
maintaining model accuracy.
- Abstract(参考訳): ユーザのプライバシ保護は、大規模にデプロイされ、さまざまな集団から収集される多くの機械学習システムにとって、大きな関心事である。
この懸念に対処する1つの方法は、単一のユーザに関する情報が他のユーザと組み合わせられるように、集約された方法でデータラベルを収集し、リリースすることである。
本稿では,個々のラベルではなく,集約データラベルを用いた機械学習モデルのトレーニングの可能性を検討する。
具体的には,共通の特徴に基づいてデータポイントをグループ化するキュレーションバッグと,同じサイズのバッグにデータポイントをランダムにグループ化するランダムバッグの2つについて検討した。
計算したバッグ設定や幅広い損失関数に対して,データの集約によって生じる可能性のある性能劣化を伴わずに勾配学習を行うことができることを示す。
本手法は,個々のラベルを必要とせずに,キュレートされたバッグ内の個々のデータ例に対する損失関数の勾配の和を集約ラベルから計算できるという観測に基づく。
ランダムバッグ設定では,仮説クラスのラデマッハ複雑性に基づく一般化リスクバウンドを提供し,最小のリスクバウンドを達成するために経験的リスク最小化をどのように実現するかを示す。
実際、ランダムバッグの設定では、バウンドが示すように、バッグのサイズと達成可能なエラー率との間にトレードオフがあります。
最後に,理論的な知見を確認するために,注意深く実験研究を行う。
特に,集合学習は,モデルの精度を維持しつつ,ユーザのプライバシーを守る効果的な方法であることが示唆された。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Weak to Strong Learning from Aggregate Labels [9.804335415337071]
本研究では,そのような学習袋にアグリゲートラベルを付けた弱い学習者を用いて,強力な学習者を得るという課題について検討する。
弱い学習者はトレーニングバッグに一定精度1を有し、強い学習者の精度は任意に1に近づくことができる。
我々の研究は、LLPで同じことを達成するアルゴリズムを用いて、アグリゲーションラベルから弱いから強い学習を理論的に研究した最初のものである。
論文 参考訳(メタデータ) (2024-11-09T14:56:09Z) - Theoretical Proportion Label Perturbation for Learning from Label Proportions in Large Bags [5.842419815638353]
ラベルパーセンテージ(LLP)からの学習は、バッグのラベルパーセンテージからインスタンスレベルの分類器を訓練する弱い教師付き学習である。
LLPの課題は、バッグ(バッグサイズ)のインスタンス数が多すぎると発生するため、従来のLPPメソッドはGPUメモリの制限のために困難である。
本研究の目的は,大型バッグから学習可能なLPP手法の開発である。
論文 参考訳(メタデータ) (2024-08-26T09:24:36Z) - Learning from Aggregate responses: Instance Level versus Bag Level Loss
Functions [23.32422115080128]
多くの実践的アプリケーションでは、学習者のプライバシを保護するために、学習者と共有する前にトレーニングデータを集約する。
本研究では,バッグレベルの損失とインスタンスレベルの損失の2つの自然損失関数について検討した。
本稿では,アグリゲート応答からの個人学習のメカニズムを提案し,リスクプライバシトレードオフの予測の観点から最適なバッグサイズを導出する。
論文 参考訳(メタデータ) (2024-01-20T02:14:11Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Fast learning from label proportions with small bags [0.0]
ラベルパーセンテージ(LLP)から学ぶ場合、インスタンスはバッグにグループ化され、トレーニングバッグの相対クラスパーセンテージが与えられたインスタンス分類器を学習する。
本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-07T13:11:18Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Certainty Pooling for Multiple Instance Learning [0.6299766708197883]
我々は、モデル確実性をバッグ予測に組み込んだ、textbfCertainty Poolingと呼ばれる新しいプール演算子を提案する。
本手法は,バッグレベルとインスタンスレベルの予測において,特に小規模なトレーニングセットのみが利用できる場合において,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-08-24T16:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。