論文の概要: Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments
Latent Variable Estimation
- arxiv url: http://arxiv.org/abs/2103.02761v1
- Date: Wed, 3 Mar 2021 23:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:07:45.827789
- Title: Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments
Latent Variable Estimation
- Title(参考訳): 遅延変動推定法におけるラベル付き値とラベルなし値の比較
- Authors: Mayee F. Chen, Benjamin Cohen-Wang, Stephen Mussmann, Frederic Sala,
Christopher R\'e
- Abstract要約: 我々は,メソッド・オブ・モーメント・潜在変数推定におけるモデル誤特定に着目したフレームワークを用いている。
そして、ある場合においてこのバイアスを確実に排除する補正を導入する。
理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。
- 参考スコア(独自算出の注目度): 17.212805760360954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling data for modern machine learning is expensive and time-consuming.
Latent variable models can be used to infer labels from weaker,
easier-to-acquire sources operating on unlabeled data. Such models can also be
trained using labeled data, presenting a key question: should a user invest in
few labeled or many unlabeled points? We answer this via a framework centered
on model misspecification in method-of-moments latent variable estimation. Our
core result is a bias-variance decomposition of the generalization error, which
shows that the unlabeled-only approach incurs additional bias under
misspecification. We then introduce a correction that provably removes this
bias in certain cases. We apply our decomposition framework to three scenarios
-- well-specified, misspecified, and corrected models -- to 1) choose between
labeled and unlabeled data and 2) learn from their combination. We observe
theoretically and with synthetic experiments that for well-specified models,
labeled points are worth a constant factor more than unlabeled points. With
misspecification, however, their relative value is higher due to the additional
bias but can be reduced with correction. We also apply our approach to study
real-world weak supervision techniques for dataset construction.
- Abstract(参考訳): 現代の機械学習のためのラベリングデータは高価で時間がかかります。
潜在変数モデルは、ラベルのないデータを操作するより弱い、簡単に取得できるソースからラベルを推測するために使うことができる。
このようなモデルはラベル付きデータを使ってトレーニングすることもでき、重要な疑問を提示している。
我々は、メソッド・オブ・モーメントの潜伏変数推定におけるモデルの誤特定に焦点を当てたフレームワークを介してこれを答える。
我々の中心となる結果は一般化誤差のバイアス分散分解であり、これはラベルなしのみのアプローチが誤特定の下で追加バイアスを引き起こすことを示している。
そして、ある場合においてこのバイアスを確実に排除する補正を導入する。
分解フレームワークを3つのシナリオ – 明確に特定され,不特定で,修正されたモデル – に適用し,1)ラベル付きデータとラベルなしデータを選択し,2)組み合わせから学習する。
理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。
しかし、誤特定の場合、その相対値は追加のバイアスのため高いが、補正によって減少する可能性がある。
また,本手法を,データセット構築のための現実の弱い監視手法の研究にも応用する。
関連論文リスト
- Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Latent Outlier Exposure for Anomaly Detection with Contaminated Data [31.446666264334528]
異常検出は、ラベルなしデータセットの大多数のデータから体系的なずれを示すデータポイントを特定することを目的としている。
本稿では,広範囲のモデルと互換性のあるラベルのない異常が存在する場合に,異常検知器を訓練するための戦略を提案する。
論文 参考訳(メタデータ) (2022-02-16T14:21:28Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - Unbiased Loss Functions for Multilabel Classification with Missing
Labels [2.1549398927094874]
欠落ラベルは、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。
本稿では,異なるマルチラベルリダクションに対する特異な非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-09-23T10:39:02Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。