論文の概要: Learning from Uneven Training Data: Unlabeled, Single Label, and
Multiple Labels
- arxiv url: http://arxiv.org/abs/2109.04408v1
- Date: Thu, 9 Sep 2021 16:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 16:52:59.009410
- Title: Learning from Uneven Training Data: Unlabeled, Single Label, and
Multiple Labels
- Title(参考訳): 不均一なトレーニングデータから学ぶ - ラベルなし,シングルラベル,複数ラベル
- Authors: Shujian Zhang, Chengyue Gong, Eunsol Choi
- Abstract要約: NLPシステムのトレーニングは通常、例ごとに1つの人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
トレーニングサンプルの小さなサブセットに対して、サンプル毎に複数のラベルを割り当てる新しいラベルアノテーション分布スキームについて検討する。
このような複数ラベルの例を、より少ない例に注釈をつけるコストで導入することは、自然言語推論タスクとエンティティ型付けタスクに明らかな利益をもたらす。
- 参考スコア(独自算出の注目度): 19.869498599986006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training NLP systems typically assumes access to annotated data that has a
single human label per example. Given imperfect labeling from annotators and
inherent ambiguity of language, we hypothesize that single label is not
sufficient to learn the spectrum of language interpretation. We explore new
label annotation distribution schemes, assigning multiple labels per example
for a small subset of training examples. Introducing such multi label examples
at the cost of annotating fewer examples brings clear gains on natural language
inference task and entity typing task, even when we simply first train with a
single label data and then fine tune with multi label examples. Extending a
MixUp data augmentation framework, we propose a learning algorithm that can
learn from uneven training examples (with zero, one, or multiple labels). This
algorithm efficiently combines signals from uneven training data and brings
additional gains in low annotation budget and cross domain settings. Together,
our method achieves consistent gains in both accuracy and label distribution
metrics in two tasks, suggesting training with uneven training data can be
beneficial for many NLP tasks.
- Abstract(参考訳): NLPシステムのトレーニングは通常、例ごとに単一の人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
アノテータからの不完全なラベル付けと言語固有のあいまいさを考えると、単一ラベルは言語解釈のスペクトルを学ぶのに十分ではないと仮定する。
トレーニング例の小さなサブセットに対して,サンプル毎に複数のラベルを割り当てて,新たなラベルアノテーション分散スキームを探索する。
このような複数ラベルのサンプルを、より少ない例に注釈付けするコストで導入すると、自然言語推論タスクやエンティティタイピングタスクにおいて明らかな利益が得られます。
MixUpのデータ拡張フレームワークを拡張し,不均一なトレーニング例(ゼロ,1,複数ラベル)から学習可能な学習アルゴリズムを提案する。
このアルゴリズムは、不均一なトレーニングデータからの信号を効率よく組み合わせ、低アノテーション予算とクロスドメイン設定でさらなる利得をもたらす。
本手法は,2つのタスクにおいて,精度とラベル分布の指標の両立を両立させ,不均一なトレーニングデータを用いたトレーニングが多くのnlpタスクに有益であることを示す。
関連論文リスト
- Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。