論文の概要: Learning with Different Amounts of Annotation: From Zero to Many Labels
- arxiv url: http://arxiv.org/abs/2109.04408v2
- Date: Fri, 10 Sep 2021 18:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 02:22:36.125070
- Title: Learning with Different Amounts of Annotation: From Zero to Many Labels
- Title(参考訳): アノテーションの量の違いによる学習:ゼロから多くのラベルへ
- Authors: Shujian Zhang, Chengyue Gong, Eunsol Choi
- Abstract要約: NLPシステムのトレーニングは通常、例ごとに1つの人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
我々は、トレーニング例の小さなサブセットに対して、サンプル毎に複数のラベルを割り当てる、新しいアノテーション分布スキームについて検討する。
このような複数ラベルの例を、より少ない例に注釈をつけるコストで導入することは、自然言語推論タスクとエンティティ型付けタスクに明らかな利益をもたらす。
- 参考スコア(独自算出の注目度): 19.869498599986006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training NLP systems typically assumes access to annotated data that has a
single human label per example. Given imperfect labeling from annotators and
inherent ambiguity of language, we hypothesize that single label is not
sufficient to learn the spectrum of language interpretation. We explore new
annotation distribution schemes, assigning multiple labels per example for a
small subset of training examples. Introducing such multi label examples at the
cost of annotating fewer examples brings clear gains on natural language
inference task and entity typing task, even when we simply first train with a
single label data and then fine tune with multi label examples. Extending a
MixUp data augmentation framework, we propose a learning algorithm that can
learn from training examples with different amount of annotation (with zero,
one, or multiple labels). This algorithm efficiently combines signals from
uneven training data and brings additional gains in low annotation budget and
cross domain settings. Together, our method achieves consistent gains in two
tasks, suggesting distributing labels unevenly among training examples can be
beneficial for many NLP tasks.
- Abstract(参考訳): NLPシステムのトレーニングは通常、例ごとに単一の人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
アノテータからの不完全なラベル付けと言語固有のあいまいさを考えると、単一ラベルは言語解釈のスペクトルを学ぶのに十分ではないと仮定する。
トレーニング例の小さなサブセットに対して,サンプル毎に複数のラベルを割り当てて,アノテーションの分散スキームを新たに検討する。
このような複数ラベルのサンプルを、より少ない例に注釈付けするコストで導入すると、自然言語推論タスクやエンティティタイピングタスクにおいて明らかな利益が得られます。
mixupデータ拡張フレームワークを拡張して、異なる量のアノテーション(ゼロ、ワン、複数ラベル)を使ったトレーニング例から学習可能な学習アルゴリズムを提案する。
このアルゴリズムは、不均一なトレーニングデータからの信号を効率よく組み合わせ、低アノテーション予算とクロスドメイン設定でさらなる利得をもたらす。
提案手法は2つのタスクにおいて一貫したゲインを達成し,トレーニング例に不均一にラベルを配布することは,多くのNLPタスクにとって有益であることを示す。
関連論文リスト
- Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。