論文の概要: Self-Training with Weak Supervision
- arxiv url: http://arxiv.org/abs/2104.05514v1
- Date: Mon, 12 Apr 2021 14:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 21:48:36.081251
- Title: Self-Training with Weak Supervision
- Title(参考訳): 弱視による自己訓練
- Authors: Giannis Karamanolakis, Subhabrata Mukherjee, Guoqing Zheng and Ahmed
Hassan Awadallah
- Abstract要約: 最先端のディープニューラルネットワークには、多くのタスクで入手するのに高価な大規模なラベル付きトレーニングデータが必要です。
ドメイン固有のルールの形での弱い監視は、そのような設定で有用であることが示されている。
我々は、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
- 参考スコア(独自算出の注目度): 32.68342091430266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art deep neural networks require large-scale labeled training
data that is often expensive to obtain or not available for many tasks. Weak
supervision in the form of domain-specific rules has been shown to be useful in
such settings to automatically generate weakly labeled training data. However,
learning with weak rules is challenging due to their inherent heuristic and
noisy nature. An additional challenge is rule coverage and overlap, where prior
work on weak supervision only considers instances that are covered by weak
rules, thus leaving valuable unlabeled data behind.
In this work, we develop a weak supervision framework (ASTRA) that leverages
all the available data for a given task. To this end, we leverage task-specific
unlabeled data through self-training with a model (student) that considers
contextualized representations and predicts pseudo-labels for instances that
may not be covered by weak rules. We further develop a rule attention network
(teacher) that learns how to aggregate student pseudo-labels with weak rule
labels, conditioned on their fidelity and the underlying context of an
instance. Finally, we construct a semi-supervised learning objective for
end-to-end training with unlabeled data, domain-specific rules, and a small
amount of labeled data. Extensive experiments on six benchmark datasets for
text classification demonstrate the effectiveness of our approach with
significant improvements over state-of-the-art baselines.
- Abstract(参考訳): 最先端のディープニューラルネットワークには大規模なラベル付きトレーニングデータが必要である。
ドメイン固有のルールという形での弱い監督は、弱いラベル付きトレーニングデータを自動的に生成するこのような設定で有用であることが示されている。
しかし,本質的なヒューリスティックでうるさい性質から,ルールの弱い学習は困難である。
もうひとつの課題はルールカバレッジと重複であり、弱い監視に関する事前の作業は、弱いルールで覆われたインスタンスのみを考慮し、貴重なラベルのないデータを残しておく。
本研究では、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
この目的のために、コンテキスト化された表現を考慮し、弱いルールでカバーされないインスタンスの擬似ラベルを予測するモデル(スチューデント)による自己学習を通じて、タスク固有のラベルなしデータを活用する。
さらに,学生の擬似ラベルを弱いルールラベルで集約する方法を学習するルールアテンションネットワーク(教師)を開発し,その忠実さとインスタンスの基盤となるコンテキストを条件とした。
最後に、ラベルなしデータ、ドメイン固有のルール、少量のラベル付きデータによるエンドツーエンドトレーニングのための半教師付き学習目標を構築する。
テキスト分類のための6つのベンチマークデータセットに関する広範な実験は、最先端のベースラインよりも大幅に改善したアプローチの有効性を示しています。
関連論文リスト
- Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Label Propagation with Weak Supervision [47.52032178837098]
古典的ラベル伝搬アルゴリズム(LPA)の新しい解析法について紹介する(Zhu & Ghahramani, 2002)。
基礎となるグラフの局所的幾何学的性質と先行情報の品質の両方を利用する誤差境界を提供する。
提案手法は,従来の半教師付き手法と弱教師付き手法を改良した,弱教師付き分類タスクに応用できることを実証する。
論文 参考訳(メタデータ) (2022-10-07T14:53:02Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Noised Consistency Training for Text Summarization [23.16890559954038]
整合性トレーニングは半教師付きアプローチによって克服できると主張している。
我々は,大量のラベル付きデータを活用することで,ラベル付きデータセットが不十分な場合の教師あり学習性能が向上することを確認した。
論文 参考訳(メタデータ) (2021-05-28T07:21:39Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Self-supervised driven consistency training for annotation efficient
histopathology image analysis [13.005873872821066]
大きなラベル付きデータセットでニューラルネットワークをトレーニングすることは、計算病理学において依然として支配的なパラダイムである。
本研究では,非教師付き表現学習のための強力な監視信号を学ぶために,ヒストロジ全体スライディング画像の背景となる多段階的文脈的手がかりを利用する自己教師付きプレテキストタスクを提案する。
また,タスク固有の未ラベルデータとの予測整合性に基づいて,事前学習した表現を下流タスクに効果的に転送することを学ぶ教師による半教師付き一貫性パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-07T19:46:21Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。