論文の概要: Adaptive Rule Discovery for Labeling Text Data
- arxiv url: http://arxiv.org/abs/2005.06133v1
- Date: Wed, 13 May 2020 03:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:34:19.912863
- Title: Adaptive Rule Discovery for Labeling Text Data
- Title(参考訳): テキストデータラベリングのための適応ルール発見
- Authors: Sainyam Galhotra, Behzad Golshan and Wang-Chiew Tan
- Abstract要約: 本稿では,テキストデータを弱教師付き設定でラベル付けするためのルール記述作業を緩和する対話型システムであるDarwinを紹介する。
ダーウィンは大きなテキストコーパスで操作でき、幅広いラベリング機能をサポートする。
1000のラベル付きインスタンスが提供される場合でも、Snubaと比較して40%以上のポジティブなインスタンスを識別できる。
- 参考スコア(独自算出の注目度): 28.224230576901594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating and collecting labeled data is one of the major bottlenecks in
machine learning pipelines and the emergence of automated feature generation
techniques such as deep learning, which typically requires a lot of training
data, has further exacerbated the problem. While weak-supervision techniques
have circumvented this bottleneck, existing frameworks either require users to
write a set of diverse, high-quality rules to label data (e.g., Snorkel), or
require a labeled subset of the data to automatically mine rules (e.g., Snuba).
The process of manually writing rules can be tedious and time consuming. At the
same time, creating a labeled subset of the data can be costly and even
infeasible in imbalanced settings. This is due to the fact that a random sample
in imbalanced settings often contains only a few positive instances.
To address these shortcomings, we present Darwin, an interactive system
designed to alleviate the task of writing rules for labeling text data in
weakly-supervised settings. Given an initial labeling rule, Darwin
automatically generates a set of candidate rules for the labeling task at hand,
and utilizes the annotator's feedback to adapt the candidate rules. We describe
how Darwin is scalable and versatile. It can operate over large text corpora
(i.e., more than 1 million sentences) and supports a wide range of labeling
functions (i.e., any function that can be specified using a context free
grammar). Finally, we demonstrate with a suite of experiments over five
real-world datasets that Darwin enables annotators to generate
weakly-supervised labels efficiently and with a small cost. In fact, our
experiments show that rules discovered by Darwin on average identify 40% more
positive instances compared to Snuba even when it is provided with 1000 labeled
instances.
- Abstract(参考訳): ラベル付きデータの作成と収集は、機械学習パイプラインにおける大きなボトルネックの1つであり、多くのトレーニングデータを必要とするディープラーニングのような自動機能生成技術の出現は、この問題をさらに悪化させた。
弱いスーパービジョン技術はこのボトルネックを回避しているが、既存のフレームワークでは、データにラベルをつけるための多様な高品質のルール(例えばシュノーケル)を書くか、自動的にルールをマイニングするデータのラベル付きサブセット(例えばsnuba)が必要となる。
手動でルールを書くプロセスは面倒で時間がかかります。
同時に、データのラベル付きサブセットを作成することは、不均衡設定でコストがかかり、さらには実現不可能になる可能性がある。
これは、不均衡な設定のランダムなサンプルが、少数の正のインスタンスしか含まないためである。
これらの欠点に対処するため,テキストデータを弱教師付き設定でラベル付けするためのルール記述作業の軽減を目的とした対話型システムであるDarwinを提案する。
初期ラベリングルールが与えられると、darwinは手元にあるラベリングタスクの一連の候補ルールを自動的に生成し、アノテーションのフィードバックを利用して候補ルールを適応させる。
darwinのスケーラビリティと汎用性について説明する。
大きなテキストコーパス(100万文以上)で操作でき、幅広いラベリング機能(文脈自由文法を使って指定できる任意の関数)をサポートする。
最後に、darwinが弱い教師付きラベルを効率的にかつ低コストで生成できる5つの実世界のデータセットに関する一連の実験を行った。
実際、我々の実験では、ダーウィンが発見したルールは、1000のラベル付きインスタンスが提供される場合でも、スヌーバよりも40%多い正のインスタンスを識別している。
関連論文リスト
- Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Active WeaSuL: Improving Weak Supervision with Active Learning [2.624902795082451]
アクティブラーニングを弱い監督に組み込んだアプローチであるActive WeaSuLを提案します。
我々は,1) 弱いラベルの組み合わせを通知し改善する弱監督損失関数の修正,2) 専門家ラベルがどのデータポイントに最も有用かを決定するmaxKL分散サンプリング戦略,の2つの貢献を行う。
論文 参考訳(メタデータ) (2021-04-30T08:58:26Z) - GLaRA: Graph-based Labeling Rule Augmentation for Weakly Supervised
Named Entity Recognition [8.352789684571704]
グラフベースのラベル付けルール拡張フレームワークであるtextscGLaRA を提案し,ラベルなしデータから新しいラベル付けルールを学習する。
ラベルなしデータに対する拡張ルールを適用し,弱いラベルを生成し,弱いラベル付きデータを用いてnerモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-04-13T14:20:58Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Denoising Multi-Source Weak Supervision for Neural Text Classification [9.099703420721701]
ラベル付きデータを用いずにニューラルネットワーク分類器を学習する問題について検討する。
ルールによって引き起こされる弱いラベルは、しばしばノイズが多く不完全であるため、この問題は困難である。
我々は,条件付きソフトアテンション機構を用いて音源の信頼性を推定し,規則付弱ラベルを集約することでラベルノイズを低減するラベルデノイザを設計する。
論文 参考訳(メタデータ) (2020-10-09T13:57:52Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。