論文の概要: Learned Label Aggregation for Weak Supervision
- arxiv url: http://arxiv.org/abs/2207.13545v1
- Date: Wed, 27 Jul 2022 14:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 14:11:06.128979
- Title: Learned Label Aggregation for Weak Supervision
- Title(参考訳): 弱い監督のための学習ラベルアグリゲーション
- Authors: Renzhi Wu, Shen-En Chen, Xu Chu
- Abstract要約: 本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
- 参考スコア(独自算出の注目度): 8.819582879892762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of labeled training data is the bottleneck of machine learning in
many applications. To resolve the bottleneck, one promising direction is the
data programming approach that aggregates different sources of weak supervision
signals to generate labeled data easily. Data programming encodes each weak
supervision source with a labeling function (LF), a user-provided program that
predicts noisy labels. The quality of the generated labels depends on a label
aggregation model that aggregates all noisy labels from all LFs to infer the
ground-truth labels.
Existing label aggregation methods typically rely on various assumptions and
are not robust across datasets, as we will show empirically. We for the first
time provide an analytical label aggregation method that makes minimum
assumption and is optimal in minimizing a certain form of the averaged
prediction error. Since the complexity of the analytical form is exponential,
we train a model that learns to be the analytical method. Once trained, the
model can be used for any unseen datasets and the model predicts the
ground-truth labels for each dataset in a single forward pass in linear time.
We show the model can be trained using synthetically generated data and design
an effective architecture for the model. On 14 real-world datasets, our model
significantly outperforms the best existing methods in both accuracy (by 3.5
points on average) and efficiency (by six times on average).
- Abstract(参考訳): ラベル付きトレーニングデータの欠如は、多くのアプリケーションにおける機械学習のボトルネックである。
ボトルネックを解決するためには、異なる弱い監督信号のソースを集約してラベル付きデータを容易に生成するデータプログラミングアプローチが有望な方向だ。
データプログラミングは、ノイズラベルを予測するユーザが提供するプログラムであるラベル付け関数(LF)で、各弱い監督ソースを符号化する。
生成されたラベルの品質は、すべてのlfからノイズの多いラベルを集約し、接地ラベルを推測するラベル集約モデルに依存する。
既存のラベルアグリゲーションメソッドは一般的に様々な仮定に依存しており、データセット間では堅牢ではない。
我々はまず,最小の仮定を仮定し,平均予測誤差の特定の形式を最小化する解析ラベル集約手法を初めて提案する。
分析フォームの複雑さは指数関数的であるため、分析方法として学習するモデルを訓練する。
トレーニングが完了すると、モデルは見えないデータセットに使用され、モデルは1回のフォワードパスで、各データセットの基底ラベルを線形時間で予測する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
実世界の14のデータセットにおいて、我々のモデルは、精度(平均3.5ポイント)と効率(平均6倍)の両方において、最も優れた既存手法を著しく上回っている。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Deep Partial Multi-Label Learning with Graph Disambiguation [27.908565535292723]
grAph-disambIguatioN (PLAIN) を用いた新しいディープ部分多重ラベルモデルを提案する。
具体的には、ラベルの信頼性を回復するために、インスタンスレベルとラベルレベルの類似性を導入する。
各トレーニングエポックでは、ラベルがインスタンスとラベルグラフに伝播し、比較的正確な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-05-10T04:02:08Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Unsupervised Pool-Based Active Learning for Linear Regression [29.321275647107928]
本稿では,線形回帰問題に対する教師なしプールベースALについて検討する。
本稿では,ALにおける3つの重要な基準である,情報性,代表性,多様性を同時に考慮した新たなALアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-14T20:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。