論文の概要: SPEAR : Semi-supervised Data Programming in Python
- arxiv url: http://arxiv.org/abs/2108.00373v1
- Date: Sun, 1 Aug 2021 06:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:12:18.394831
- Title: SPEAR : Semi-supervised Data Programming in Python
- Title(参考訳): SPEAR : Pythonにおける半教師付きデータプログラミング
- Authors: Guttu Sai Abhishek, Harshad Ingole, Parth Laturia, Vineeth Dorna,
Ayush Maheshwari, Ganesh Ramakrishnan and Rishabh Iyer
- Abstract要約: 半自動ルールを用いたデータプログラミングのためのオープンソースのpythonライブラリであるSPEARを提案する。
雑音ラベルを集約するラベルアグリゲーション手法を複数実装し、ノイズラベルセットをカスケード方式で訓練する。
当社のpythonパッケージでは,複数のカスケードとジョイントなデータプログラミングアプローチを統合しながら,ユーザがラベル付け機能やルールを定義することで,データプログラミングの機能も提供する。
- 参考スコア(独自算出の注目度): 9.589097512517407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SPEAR, an open-source python library for data programming with
semi supervision. The package implements several recent data programming
approaches including facility to programmatically label and build training
data. SPEAR facilitates weak supervision in the form of heuristics (or rules)
and association of noisy labels to the training dataset. These noisy labels are
aggregated to assign labels to the unlabeled data for downstream tasks. We have
implemented several label aggregation approaches that aggregate the noisy
labels and then train using the noisily labeled set in a cascaded manner. Our
implementation also includes other approaches that jointly aggregate and train
the model. Thus, in our python package, we integrate several cascade and joint
data-programming approaches while also providing the facility of data
programming by letting the user define labeling functions or rules. The code
and tutorial notebooks are available at
\url{https://github.com/decile-team/spear}.
- Abstract(参考訳): 半監督型データプログラミングのためのオープンソースのpythonライブラリであるSPEARについて述べる。
このパッケージは、トレーニングデータをプログラム的にラベル付けし構築する機能を含む、最近のデータプログラミングアプローチを実装している。
SPEARはヒューリスティックス(またはルール)の形での弱い監督と、ノイズラベルのトレーニングデータセットへの関連を促進する。
これらのノイズラベルを集約して、ダウンストリームタスクのラベルなしデータにラベルを割り当てる。
我々は,ノイズラベルを集約したラベルアグリゲーション手法を複数実装し,ノイズラベル集合を逐次的に学習した。
当社の実装には、モデルを集約し、トレーニングする他のアプローチも含まれています。
そこで,本パッケージでは,複数のカスケードとジョイントなデータプログラミングアプローチを統合するとともに,ユーザがラベル付け機能やルールを定義することで,データプログラミングの機能も提供する。
コードとチュートリアルノートブックは \url{https://github.com/decile-team/spear} で入手できる。
関連論文リスト
- Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Learning from Label Proportions: Bootstrapping Supervised Learners via Belief Propagation [18.57840057487926]
LLP(Learning from Label Proportions)は、トレーニング中にバッグと呼ばれるインスタンスのグループに対して、アグリゲートレベルのラベルしか利用できない学習問題である。
この設定は、プライバシー上の配慮から、広告や医療などの領域で発生する。
本稿では,この問題に対して,反復的に2つの主要なステップを実行する新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T06:09:26Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning [93.63638405586354]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set
Unlabeled Data [65.19205979542305]
ラベル付けされていないデータには、実際にはクラス外のサンプルが含まれる。
OpenCoSは、このリアルな半教師付き学習シナリオを扱う方法である。
論文 参考訳(メタデータ) (2021-06-29T06:10:05Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。