論文の概要: Aggregating Data for Optimal and Private Learning
- arxiv url: http://arxiv.org/abs/2411.19045v1
- Date: Thu, 28 Nov 2024 10:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:29.349944
- Title: Aggregating Data for Optimal and Private Learning
- Title(参考訳): 最適・プライベート学習のための集約データ
- Authors: Sushant Agarwal, Yukti Makhija, Rishi Saket, Aravindan Raghuveer,
- Abstract要約: Multi Instance Regression (MIR)とLearning from Label Proportions (LLP)は、学習フレームワークである。
我々は,MIR と LLP の様々な損失関数について検討し,データセットをバッグに分割する最適な方法について検討した。
- 参考スコア(独自算出の注目度): 13.283323029489507
- License:
- Abstract: Multiple Instance Regression (MIR) and Learning from Label Proportions (LLP) are learning frameworks arising in many applications, where the training data is partitioned into disjoint sets or bags, and only an aggregate label i.e., bag-label for each bag is available to the learner. In the case of MIR, the bag-label is the label of an undisclosed instance from the bag, while in LLP, the bag-label is the mean of the bag's labels. In this paper, we study for various loss functions in MIR and LLP, what is the optimal way to partition the dataset into bags such that the utility for downstream tasks like linear regression is maximized. We theoretically provide utility guarantees, and show that in each case, the optimal bagging strategy (approximately) reduces to finding an optimal clustering of the feature vectors or the labels with respect to natural objectives such as $k$-means. We also show that our bagging mechanisms can be made label-differentially private, incurring an additional utility error. We then generalize our results to the setting of Generalized Linear Models (GLMs). Finally, we experimentally validate our theoretical results.
- Abstract(参考訳): 複数インスタンス回帰(Multiple Instance Regression、MIR)とLearning from Label Proportions(LLP)は、多くのアプリケーションで発生する学習フレームワークである。
MIRの場合、バッグラベルはバッグから未開示のインスタンスのラベルであり、LPPではバッグラベルはバッグのラベルの平均である。
本稿では,MIR と LLP の様々な損失関数について検討し,線形回帰のような下流タスクの効用を最大化するように,データセットをバッグに分割する最適な方法について述べる。
実用性保証を理論的に提供し、各ケースにおいて、最適バギング戦略(約)は、$k$-meansのような自然目的に対して特徴ベクトルやラベルの最適なクラスタリングを見つけることに還元されることを示す。
また,バギング機構をラベル差分でプライベートにすることで,付加的なユーティリティエラーを発生させることを示す。
次に、その結果を一般化線形モデル(GLM)の設定に一般化する。
最後に、理論的結果について実験的に検証する。
関連論文リスト
- Learning from Label Proportions and Covariate-shifted Instances [12.066922664696445]
ラベル比(LLP)から学ぶ場合、アグリゲートラベルはバッグ内のインスタンスラベルの平均である。
我々は,対象のバッグラベルとソースのインスタンスラベルを自然に組み込むハイブリッドLPの手法を開発した。
論文 参考訳(メタデータ) (2024-11-19T08:36:34Z) - Weak to Strong Learning from Aggregate Labels [9.804335415337071]
本研究では,そのような学習袋にアグリゲートラベルを付けた弱い学習者を用いて,強力な学習者を得るという課題について検討する。
弱い学習者はトレーニングバッグに一定精度1を有し、強い学習者の精度は任意に1に近づくことができる。
我々の研究は、LLPで同じことを達成するアルゴリズムを用いて、アグリゲーションラベルから弱いから強い学習を理論的に研究した最初のものである。
論文 参考訳(メタデータ) (2024-11-09T14:56:09Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Fast learning from label proportions with small bags [0.0]
ラベルパーセンテージ(LLP)から学ぶ場合、インスタンスはバッグにグループ化され、トレーニングバッグの相対クラスパーセンテージが与えられたインスタンス分類器を学習する。
本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-07T13:11:18Z) - Active Learning in Incomplete Label Multiple Instance Multiple Label
Learning [17.5720245903743]
MIML設定におけるアクティブラーニングのための新しいバッグクラスペア方式を提案する。
我々のアプローチは、効率的かつ正確な推論を伴う識別的グラフィカルモデルに基づいている。
論文 参考訳(メタデータ) (2021-07-22T17:01:28Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。