論文の概要: A Benchmark Generative Probabilistic Model for Weak Supervised Learning
- arxiv url: http://arxiv.org/abs/2303.17841v2
- Date: Wed, 4 Oct 2023 08:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:22:13.160562
- Title: A Benchmark Generative Probabilistic Model for Weak Supervised Learning
- Title(参考訳): 弱監視学習のためのベンチマーク生成確率モデル
- Authors: Georgios Papadopoulos, Fran Silavong, Sean Moran
- Abstract要約: アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 2.0257616108612373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Finding relevant and high-quality datasets to train machine learning models
is a major bottleneck for practitioners. Furthermore, to address ambitious
real-world use-cases there is usually the requirement that the data come
labelled with high-quality annotations that can facilitate the training of a
supervised model. Manually labelling data with high-quality labels is generally
a time-consuming and challenging task and often this turns out to be the
bottleneck in a machine learning project. Weak Supervised Learning (WSL)
approaches have been developed to alleviate the annotation burden by offering
an automatic way of assigning approximate labels (pseudo-labels) to unlabelled
data based on heuristics, distant supervision and knowledge bases. We apply
probabilistic generative latent variable models (PLVMs), trained on heuristic
labelling representations of the original dataset, as an accurate, fast and
cost-effective way to generate pseudo-labels. We show that the PLVMs achieve
state-of-the-art performance across four datasets. For example, they achieve
22% points higher F1 score than Snorkel in the class-imbalanced Spouse dataset.
PLVMs are plug-and-playable and are a drop-in replacement to existing WSL
frameworks (e.g. Snorkel) or they can be used as benchmark models for more
complicated algorithms, giving practitioners a compelling accuracy boost.
- Abstract(参考訳): マシンラーニングモデルのトレーニングに関連し、高品質なデータセットを見つけることは、実践者にとって大きなボトルネックである。
さらに、野心的な現実世界のユースケースに対処するためには、通常、データは教師付きモデルのトレーニングを容易にする高品質なアノテーションでラベル付けされる必要がある。
高品質なラベルでデータを手作業でラベル付けするのは、一般的には時間のかかる課題であり、マシンラーニングプロジェクトではボトルネックになることが多い。
Weak Supervised Learning (WSL) アプローチは、ヒューリスティックス、遠隔監視、知識ベースに基づく未学習データに近似ラベル(擬似ラベル)を割り当てる自動方法を提供することで、アノテーションの負担を軽減するために開発された。
確率的生成潜在変数モデル (PLVM) を用いて, 元のデータセットのヒューリスティックなラベリング表現を訓練し, 擬似ラベルを生成する精度, 高速かつコスト効率のよい方法を提案する。
PLVMは4つのデータセットにまたがって最先端のパフォーマンスを実現する。
例えば、クラス不均衡なSpuseデータセットでは、SnorkelよりもF1スコアが22%高い。
plvmはプラグイン・アンド・プレイ可能で、既存のwslフレームワーク(例えばsnorkel)に置き換えられるか、より複雑なアルゴリズムのベンチマークモデルとして使用できる。
関連論文リスト
- LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。
LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。
この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文 参考訳(メタデータ) (2024-11-20T18:12:59Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint
Localization [88.74813798138466]
オブジェクトのキーポイントのローカライズは、基本的な視覚的問題である。
キーポイントローカライゼーションネットワークの教師付き学習は、しばしば大量のデータを必要とする。
本稿では,一連の動的しきい値を持つ信頼度の高い擬似ラベルサンプルを自動的に選択する。
論文 参考訳(メタデータ) (2022-01-21T09:51:58Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Pseudo-Representation Labeling Semi-Supervised Learning [0.0]
近年、半教師付き学習は、ラベルのないデータを活用してディープラーニングモデルの性能向上に成功している。
本研究は、擬似ラベル付け技術を用いて少量の未ラベルデータを反復的にラベル付けし、それらをトレーニングデータとして使用する、シンプルで柔軟なフレームワークである擬似表現ラベリングを提案する。
従来の手法と比較して、擬似表現ラベリングはより直感的であり、現実世界の実践的な問題を効果的に解決することができる。
論文 参考訳(メタデータ) (2020-05-31T03:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。