論文の概要: Training Subset Selection for Weak Supervision
- arxiv url: http://arxiv.org/abs/2206.02914v1
- Date: Mon, 6 Jun 2022 21:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:11:38.567541
- Title: Training Subset Selection for Weak Supervision
- Title(参考訳): 弱スーパービジョンのためのトレーニングサブセット選択
- Authors: Hunter Lang, Aravindan Vijayaraghavan, David Sontag
- Abstract要約: 弱いラベル付きデータの量と弱いラベルの精度とのトレードオフを示す。
我々は、事前訓練されたデータ表現とカット統計を組み合わせ、弱いラベル付きトレーニングデータの高品質なサブセットを選択する。
弱ラベルの少ないデータを使用することで、ベンチマークタスクにおいて、弱い監視パイプラインの精度が最大19%向上する。
- 参考スコア(独自算出の注目度): 17.03788288165262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing weak supervision approaches use all the data covered by weak signals
to train a classifier. We show both theoretically and empirically that this is
not always optimal. Intuitively, there is a tradeoff between the amount of
weakly-labeled data and the precision of the weak labels. We explore this
tradeoff by combining pretrained data representations with the cut statistic
(Muhlenbach et al., 2004) to select (hopefully) high-quality subsets of the
weakly-labeled training data. Subset selection applies to any label model and
classifier and is very simple to plug in to existing weak supervision
pipelines, requiring just a few lines of code. We show our subset selection
method improves the performance of weak supervision for a wide range of label
models, classifiers, and datasets. Using less weakly-labeled data improves the
accuracy of weak supervision pipelines by up to 19% (absolute) on benchmark
tasks.
- Abstract(参考訳): 既存の弱い監督アプローチでは、弱い信号がカバーするすべてのデータを使用して分類器をトレーニングする。
理論上も経験的にも、これは必ずしも最適とは限らない。
直感的には、弱いラベルデータの量と弱いラベルの精度との間にはトレードオフがある。
我々は、事前訓練されたデータ表現とカット統計(Muhlenbach et al., 2004)を組み合わせることで、弱いラベル付きトレーニングデータの高品質なサブセットを選択することにより、このトレードオフを探求する。
サブセットの選択はどんなラベルモデルや分類器にも当てはまり、既存の弱い監視パイプラインに差し込むのは非常に簡単で、ほんの数行のコードしか必要としない。
提案手法は,幅広いラベルモデル,分類器,データセットの弱い監視性能を向上させるものである。
弱ラベルの少ないデータを使用することで、ベンチマークタスクにおいて、弱い監視パイプラインの精度が最大19%向上する。
関連論文リスト
- Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Are Fewer Labels Possible for Few-shot Learning? [81.89996465197392]
ごく限られたデータとラベルのため、わずかなショット学習は難しい。
近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。
本稿では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。
論文 参考訳(メタデータ) (2020-12-10T18:59:29Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z) - Constrained Labeling for Weakly Supervised Learning [15.365232702938677]
本稿では、弱い監視信号を組み合わせるための単純なデータフリーアプローチを提案する。
我々の手法は効率よく安定しており、数回の降下を繰り返して収束する。
本手法は,様々なテキスト・画像分類タスクにおいて,他の弱い監督手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-15T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。