論文の概要: Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming
- arxiv url: http://arxiv.org/abs/2109.11410v1
- Date: Thu, 23 Sep 2021 14:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:55:32.595092
- Title: Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming
- Title(参考訳): 半教師付きデータプログラミングのためのラベリング関数のロバスト集約学習
- Authors: Ayush Maheshwari, Krishnateja Killamsetty, Ganesh Ramakrishnan,
Rishabh Iyer, Marina Danilevsky and Lucian Popa
- Abstract要約: 教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることである。
本研究では,この2つの限界を解くために,LFに基づく再重み付けフレームワークである ouralgoを提案する。
本アルゴリズムは、LF誘導に使用されるラベル付きデータセットと、ラベルなしデータとの結合モデルを半教師付きで学習する。
- 参考スコア(独自算出の注目度): 14.639568384768042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical bottleneck in supervised machine learning is the need for large
amounts of labeled data which is expensive and time consuming to obtain.
However, it has been shown that a small amount of labeled data, while
insufficient to re-train a model, can be effectively used to generate
human-interpretable labeling functions (LFs). These LFs, in turn, have been
used to generate a large amount of additional noisy labeled data, in a paradigm
that is now commonly referred to as data programming. However, previous
approaches to automatically generate LFs make no attempt to further use the
given labeled data for model training, thus giving up opportunities for
improved performance. Moreover, since the LFs are generated from a relatively
small labeled dataset, they are prone to being noisy, and naively aggregating
these LFs can lead to very poor performance in practice. In this work, we
propose an LF based reweighting framework \ouralgo{} to solve these two
critical limitations. Our algorithm learns a joint model on the (same) labeled
dataset used for LF induction along with any unlabeled data in a
semi-supervised manner, and more critically, reweighs each LF according to its
goodness, influencing its contribution to the semi-supervised loss using a
robust bi-level optimization algorithm. We show that our algorithm
significantly outperforms prior approaches on several text classification
datasets.
- Abstract(参考訳): 教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることだ。
しかし、モデルの再訓練に不十分な少量のラベル付きデータが、人間の解釈可能なラベル付け関数(LF)を生成するために効果的に使用できることが示されている。
これらのLFは、現在では一般的にデータプログラミングと呼ばれるパラダイムにおいて、大量のノイズ付きラベル付きデータを生成するために使われてきた。
しかし、LFを自動生成する以前のアプローチでは、与えられたラベル付きデータをモデルトレーニングにさらに利用しようとはしないため、パフォーマンス改善の機会が与えられる。
さらに、lfは、比較的小さなラベル付きデータセットから生成されるため、ノイズが発生しやすく、これらのlfをナイーブに集約することで、実際には非常にパフォーマンスが低下する可能性がある。
本研究では,この2つの限界を解くために,LFベースの再重み付けフレームワーク \ouralgo{} を提案する。
本アルゴリズムは,lf誘導に使用する(同じ)ラベル付きデータセットとラベル付きデータとの結合モデルを半教師付きで学習し,より批判的に,頑健な2レベル最適化アルゴリズムを用いた半教師付き損失への寄与に影響を及ぼす。
提案手法は,複数のテキスト分類データセットにおける先行手法を有意に上回っていることを示す。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision [5.566060402907773]
弱監督(WS)は手動データラベリングの代案として費用対効果がある。
教師なしラベル付け関数修正のための新しいアルゴリズムULFを導入する。
ULFは、この割り当てを信頼性の高いクロスバリデーションサンプルに再推定することで、クラスへのLFの割り当てを洗練します。
論文 参考訳(メタデータ) (2022-04-14T10:29:01Z) - Label Augmentation with Reinforced Labeling for Weak Supervision [0.1529342790344802]
本稿では, 強化ラベリング (RL) と呼ばれる新しい手法を提案する。
RLはサンプル間の類似性に基づいてLFがカバーしていないケースに対してLFの出力を増大させる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
論文 参考訳(メタデータ) (2022-04-13T14:54:02Z) - Relieving the Plateau: Active Semi-Supervised Learning for a Better
Landscape [2.3046646540823916]
semi-supervised learning (ssl) はラベル付きデータよりもアクセスしやすいラベルなしデータを活用する。
active learning (al)は、ラベルなしのインスタンスを選択して、ラベル付きデータの少ないパフォーマンスを期待する。
本稿では,ラベル付き集合を含む問題条件を改善するためにラベル付きデータを選択するALアルゴリズムである収束率制御(CRC)を提案する。
論文 参考訳(メタデータ) (2021-04-08T06:03:59Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。