論文の概要: skweak: Weak Supervision Made Easy for NLP
- arxiv url: http://arxiv.org/abs/2104.09683v1
- Date: Mon, 19 Apr 2021 23:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 02:46:16.547904
- Title: skweak: Weak Supervision Made Easy for NLP
- Title(参考訳): skweak:Wak SupervisionはNLPで簡単に使える
- Authors: Pierre Lison and Jeremy Barnes and Aliaksandr Hubin
- Abstract要約: 我々は、Pythonベースのソフトウェアツールキットskweakを紹介し、NLP開発者は幅広いNLPタスクに弱い監督を適用できる。
ドメイン知識から派生したラベル付け関数を使用して、指定されたデータセットのアノテーションを自動的に取得する。
得られたラベルは生成モデルで集約され、各ラベル関数の精度(および可能性のある混乱)を推定する。
- 参考スコア(独自算出の注目度): 13.37847225239485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present skweak, a versatile, Python-based software toolkit enabling NLP
developers to apply weak supervision to a wide range of NLP tasks. Weak
supervision is an emerging machine learning paradigm based on a simple idea:
instead of labelling data points by hand, we use labelling functions derived
from domain knowledge to automatically obtain annotations for a given dataset.
The resulting labels are then aggregated with a generative model that estimates
the accuracy (and possible confusions) of each labelling function. The skweak
toolkit makes it easy to implement a large spectrum of labelling functions
(such as heuristics, gazetteers, neural models or linguistic constraints) on
text data, apply them on a corpus, and aggregate their results in a fully
unsupervised fashion. skweak is especially designed to facilitate the use of
weak supervision for NLP tasks such as text classification and sequence
labelling. We illustrate the use of skweak for NER and sentiment analysis.
skweak is released under an open-source license and is available at:
https://github.com/NorskRegnesentral/skweak
- Abstract(参考訳): 我々は NLP 開発者が幅広い NLP タスクに弱い監督を適用できる,汎用的でPython ベースのソフトウェアツールキット skweak を提案する。
データポイントを手でラベル付けするのではなく、ドメイン知識から派生したラベル付け関数を使用して、所定のデータセットに対するアノテーションを自動的に取得します。
得られたラベルは生成モデルで集約され、各ラベル関数の精度(および可能性のある混乱)を推定する。
skweakツールキットは、テキストデータに大量のラベリング関数(ヒューリスティックス、ガゼテア、ニューラルモデル、言語制約など)を実装するのを容易にし、コーパスにそれらを適用し、完全に教師なしの方法で結果を集約する。
skweakは特に、テキスト分類やシーケンスラベリングといったNLPタスクの弱い管理を容易にするように設計されている。
NERと感情分析におけるskweakの使用について説明する。
skweakはオープンソースライセンスでリリースされ、https://github.com/norskregnesentral/skweak.com/で利用可能である。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence
Labeling [55.71459234749639]
SciAnnotateはSciAnnotateという名前のテキストアノテーションのためのウェブベースのツールで、科学的なアノテーションツールを指す。
我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。
本研究では,Bertifying Conditional Hidden Markov Modelを用いて,ツールが生成する弱いラベルを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T19:18:13Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Automatic Synthesis of Diverse Weak Supervision Sources for Behavior
Analysis [37.077883083886114]
AutoSWAPはデータ効率の高いタスクレベルのラベリング機能を自動的に合成するフレームワークである。
本稿では,AutoSWAPがラベル付け機能を自動生成する有効な方法であり,行動分析の専門的労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-11-30T07:51:12Z) - TagRuler: Interactive Tool for Span-Level Data Programming by
Demonstration [1.4050836886292872]
データプログラミングは、プログラミングの方法を知っているユーザーにのみアクセス可能だった。
我々はTagRulerという新しいツールを構築し、アノテータがプログラミングなしでスパンレベルのラベリング関数を簡単に構築できるようにする。
論文 参考訳(メタデータ) (2021-06-24T04:49:42Z) - Denoising Multi-Source Weak Supervision for Neural Text Classification [9.099703420721701]
ラベル付きデータを用いずにニューラルネットワーク分類器を学習する問題について検討する。
ルールによって引き起こされる弱いラベルは、しばしばノイズが多く不完全であるため、この問題は困難である。
我々は,条件付きソフトアテンション機構を用いて音源の信頼性を推定し,規則付弱ラベルを集約することでラベルノイズを低減するラベルデノイザを設計する。
論文 参考訳(メタデータ) (2020-10-09T13:57:52Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Reliable Label Bootstrapping for Semi-Supervised Learning [19.841733658911767]
ReLaBは教師なしプレプロセッシングアルゴリズムであり、極めて低い監督条件下での半教師付きアルゴリズムの性能を改善する。
本稿では,ネットワークアーキテクチャと自己教師型アルゴリズムの選択が,ラベルの伝播を成功させる重要な要因であることを示す。
CIFAR-10のクラス毎に1つのランダムなラベル付きサンプルを持つ$boldsymbol22.34$の平均エラー率に達し、各クラスのラベル付きサンプルが非常に代表的である場合に、このエラーを$boldsymbol8.46$に下げる。
論文 参考訳(メタデータ) (2020-07-23T08:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。