論文の概要: Semi-Supervised Data Programming with Subset Selection
- arxiv url: http://arxiv.org/abs/2008.09887v3
- Date: Sat, 12 Jun 2021 17:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 07:45:10.112018
- Title: Semi-Supervised Data Programming with Subset Selection
- Title(参考訳): サブセット選択による半教師付きデータプログラミング
- Authors: Ayush Maheshwari, Oishik Chatterjee, KrishnaTeja Killamsetty, Ganesh
Ramakrishnan, Rishabh Iyer
- Abstract要約: ラベル付きデータを使用しないことによって、データプログラミングベースのアプローチは、準最適性能を得ることができる、と我々は主張する。
我々は、半スーパービジョン、データプログラミング、サブセット選択のパラダイムを効果的に組み合わせることで、現在利用可能な7つのデータセットの最先端を著しく上回っていることを実証した。
- 参考スコア(独自算出の注目度): 21.734486799148815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of data programming, which uses weak supervision in the form of
rules/labelling functions, and semi-supervised learning, which augments small
amounts of labelled data with a large unlabelled dataset, have shown great
promise in several text classification scenarios. In this work, we argue that
by not using any labelled data, data programming based approaches can yield
sub-optimal performances, particularly when the labelling functions are noisy.
The first contribution of this work is an introduction of a framework, \model
which is a semi-supervised data programming paradigm that learns a \emph{joint
model} that effectively uses the rules/labelling functions along with
semi-supervised loss functions on the feature space. Next, we also study
\modelss which additionally does subset selection on top of the joint
semi-supervised data programming objective and \emph{selects} a set of examples
that can be used as the labelled set by \model. The goal of \modelss is to
ensure that the labelled data can \emph{complement} the labelling functions,
thereby benefiting from both data-programming as well as appropriately selected
data for human labelling. We demonstrate that by effectively combining
semi-supervision, data-programming, and subset selection paradigms, we
significantly outperform the current state-of-the-art on seven publicly
available datasets. \footnote{The source code is available at
\url{https://github.com/ayushbits/Semi-Supervised-LFs-Subset-Selection}}
- Abstract(参考訳): データプログラミングのパラダイムは、ルール/ラベル機能という形で弱い監督を用いる。そして、小さなラベル付きデータを大きなラベル付きデータセットで拡張する半教師付き学習は、いくつかのテキスト分類シナリオにおいて大きな期待を寄せている。
本研究では,ラベル付きデータを使用しない場合,特にラベル付け関数がうるさい場合には,データプログラミングに基づくアプローチが準最適性能をもたらすことを論じる。
この研究の最初の貢献は、半教師付きデータプログラミングパラダイムである \model というフレームワークの導入で、機能空間で半教師付き損失関数とともにルール/ラベル関数を効果的に利用する \emph{joint model} を学習する。
次に、半教師付きデータプログラミングの目標の上に部分集合の選択を行う \models と、 \model によるラベル付き集合として使用できる一連の例である \emph{selects} についても研究する。
\modelssの目標は、ラベル付きデータがラベル付け関数を \emph{complement} できることを保証することであり、それによって、データプログラミングと、適切に選択された人間のラベル付けデータの両方の恩恵を受けることである。
我々は、半スーパービジョン、データプログラミング、サブセット選択のパラダイムを効果的に組み合わせることで、現在利用可能な7つのデータセットの最先端を著しく上回ることを示す。
ソースコードは \url{https://github.com/ayushbits/Semi-Supervised-LFs-Subset-Selection}} で公開されている。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Fusing Conditional Submodular GAN and Programmatic Weak Supervision [5.300742881753571]
PWS(Programmatic Weak Supervision)と生成モデルは、データ収集や手動のアノテーションプロセスに頼ることなく、既存のデータセットの有用性を最大化する重要なツールとして機能する。
PWSは、データの基礎となるクラスラベルを推定するために様々な弱い監視技術を使用し、生成モデルは、主に与えられたデータセットの基盤分布からのサンプリングに集中する。
最近、WSGANは2つのモデルを融合させるメカニズムを提案した。
論文 参考訳(メタデータ) (2023-12-16T07:49:13Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming [14.639568384768042]
教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることである。
本研究では,この2つの限界を解くために,LFに基づく再重み付けフレームワークである ouralgoを提案する。
本アルゴリズムは、LF誘導に使用されるラベル付きデータセットと、ラベルなしデータとの結合モデルを半教師付きで学習する。
論文 参考訳(メタデータ) (2021-09-23T14:42:46Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。