論文の概要: Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization
- arxiv url: http://arxiv.org/abs/2207.01555v1
- Date: Mon, 4 Jul 2022 16:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:40:13.126003
- Title: Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization
- Title(参考訳): 部分リスク正規化による複数ラベルなしデータセットからの学習
- Authors: Yuting Tang, Nan Lu, Tianyi Zhang, Masashi Sugiyama
- Abstract要約: 本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
- 参考スコア(独自算出の注目度): 80.54710259664698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a great success of supervised deep learning,
where predictive models were trained from a large amount of fully labeled data.
However, in practice, labeling such big data can be very costly and may not
even be possible for privacy reasons. Therefore, in this paper, we aim to learn
an accurate classifier without any class labels. More specifically, we consider
the case where multiple sets of unlabeled data and only their class priors,
i.e., the proportions of each class, are available. Under this problem setup,
we first derive an unbiased estimator of the classification risk that can be
estimated from the given unlabeled sets and theoretically analyze the
generalization error of the learned classifier. We then find that the
classifier obtained as such tends to cause overfitting as its empirical risks
go negative during training. To prevent overfitting, we further propose a
partial risk regularization that maintains the partial risks with respect to
unlabeled datasets and classes to certain levels. Experiments demonstrate that
our method effectively mitigates overfitting and outperforms state-of-the-art
methods for learning from multiple unlabeled sets.
- Abstract(参考訳): 近年、教師付きディープラーニングが大きな成功をおさめており、予測モデルは大量のラベル付きデータから訓練されている。
しかし実際には、そのようなビッグデータのラベル付けは非常にコストがかかり、プライバシー上の理由から不可能な場合もある。
そこで本稿では,クラスラベルなしで正確な分類器を学習することを目的としている。
より具体的には、複数のラベル付きデータの集合とそれらのクラス事前(すなわち各クラスの比率)のみが利用可能である場合を考える。
本稿ではまず,与えられたラベル付き集合から推定できる分類リスクの偏りのない推定器を導出し,学習した分類器の一般化誤差を理論的に解析する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
オーバーフィッティングを防止するため,ラベルのないデータセットやクラスに対する部分的リスクを一定のレベルまで維持する部分的リスク正則化を提案する。
実験により,本手法は,複数の未ラベル集合から学習する最先端手法を効果的に緩和し,性能を向上することを示した。
関連論文リスト
- Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Can Class-Priors Help Single-Positive Multi-Label Learning? [40.312419865957224]
シングル陽性マルチラベル学習(SPMLL)は、典型的には弱教師付きマルチラベル学習問題である。
クラスプライア推定器を導入し、理論上はクラスプライアに収束することが保証されているクラスプライアを推定することができる。
推定されたクラスプライヤに基づいて、分類のための非バイアスリスク推定器が導出され、対応するリスク最小化器が、完全に教師されたデータ上で、最適リスク最小化器にほぼ収束することを保証できる。
論文 参考訳(メタデータ) (2023-09-25T05:45:57Z) - A Universal Unbiased Method for Classification from Aggregate
Observations [115.20235020903992]
本稿では,任意の損失に対する分類リスクを非バイアスで推定するCFAOの普遍的手法を提案する。
提案手法は,非バイアスリスク推定器によるリスクの整合性を保証するだけでなく,任意の損失に対応できる。
論文 参考訳(メタデータ) (2023-06-20T07:22:01Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Learning from Label Proportions by Learning with Label Noise [30.7933303912474]
ラベル比例(LLP)からの学習は、データポイントをバッグに分類する弱い教師付き分類問題である。
ラベル雑音による学習の低減に基づくLLPに対する理論的基礎的なアプローチを提案する。
このアプローチは、複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。
論文 参考訳(メタデータ) (2022-03-04T18:52:21Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。