論文の概要: Label Augmentation with Reinforced Labeling for Weak Supervision
- arxiv url: http://arxiv.org/abs/2204.06436v1
- Date: Wed, 13 Apr 2022 14:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 13:44:25.654129
- Title: Label Augmentation with Reinforced Labeling for Weak Supervision
- Title(参考訳): 弱監視のための強化ラベリングによるラベル拡張
- Authors: G\"urkan Solmaz, Flavio Cirillo, Fabio Maresca, Anagha Gode Anil Kumar
- Abstract要約: 本稿では, 強化ラベリング (RL) と呼ばれる新しい手法を提案する。
RLはサンプル間の類似性に基づいてLFがカバーしていないケースに対してLFの出力を増大させる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
- 参考スコア(独自算出の注目度): 0.1529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weak supervision (WS) is an alternative to the traditional supervised
learning to address the need for ground truth. Data programming is a practical
WS approach that allows programmatic labeling data samples using labeling
functions (LFs) instead of hand-labeling each data point. However, the existing
approach fails to fully exploit the domain knowledge encoded into LFs,
especially when the LFs' coverage is low. This is due to the common data
programming pipeline that neglects to utilize data features during the
generative process. This paper proposes a new approach called reinforced
labeling (RL). Given an unlabeled dataset and a set of LFs, RL augments the
LFs' outputs to cases not covered by LFs based on similarities among samples.
Thus, RL can lead to higher labeling coverage for training an end classifier.
The experiments on several domains (classification of YouTube comments, wine
quality, and weather prediction) result in considerable gains. The new approach
produces significant performance improvement, leading up to +21 points in
accuracy and +61 points in F1 scores compared to the state-of-the-art data
programming approach.
- Abstract(参考訳): 弱監督(WS)は、根底的な真実の必要性に対処する伝統的な教師付き学習の代替である。
データプログラミングは、各データポイントを手動でラベル付けするのではなく、ラベル付け機能(LF)を使用して、プログラムによるデータサンプルのラベル付けを可能にする実用的なWSアプローチである。
しかし、既存のアプローチでは、特にlfsのカバレッジが低い場合は、lfsにエンコードされたドメイン知識を完全に活用できない。
これは生成プロセス中にデータ機能を利用するのを怠る共通データプログラミングパイプラインのためです。
本稿では,強化ラベリング (RL) と呼ばれる新しい手法を提案する。
ラベルのないデータセットとLFのセットが与えられた後、RLはサンプル間の類似性に基づいてLFがカバーしていないケースにLFの出力を拡大する。
したがって、RLはエンド分類器を訓練するためのラベル付けのカバレッジを高めることができる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
新しいアプローチは、精度が21ポイント、f1スコアが61ポイントと、最先端のデータプログラミングアプローチに比べて大幅にパフォーマンスが向上する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision [5.566060402907773]
弱監督(WS)は手動データラベリングの代案として費用対効果がある。
教師なしラベル付け関数修正のための新しいアルゴリズムULFを導入する。
ULFは、この割り当てを信頼性の高いクロスバリデーションサンプルに再推定することで、クラスへのLFの割り当てを洗練します。
論文 参考訳(メタデータ) (2022-04-14T10:29:01Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming [14.639568384768042]
教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることである。
本研究では,この2つの限界を解くために,LFに基づく再重み付けフレームワークである ouralgoを提案する。
本アルゴリズムは、LF誘導に使用されるラベル付きデータセットと、ラベルなしデータとの結合モデルを半教師付きで学習する。
論文 参考訳(メタデータ) (2021-09-23T14:42:46Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Instance Credibility Inference for Few-Shot Learning [45.577880041135785]
ほとんどショットラーニングは、カテゴリごとに非常に限られたトレーニングデータを持つ新しいオブジェクトを認識することを目的としていない。
本稿では,未ラベルのインスタンスの分散サポートを数発の学習に活用するために,ICI (Instance Credibility Inference) と呼ばれる単純な統計手法を提案する。
我々の単純なアプローチは、広く使われている4つのショットラーニングベンチマークデータセットに基づいて、最先端の新たなデータセットを確立することができる。
論文 参考訳(メタデータ) (2020-03-26T12:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。