論文の概要: Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling
- arxiv url: http://arxiv.org/abs/2302.08659v1
- Date: Fri, 17 Feb 2023 02:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:06:15.241405
- Title: Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling
- Title(参考訳): 低リソースニューラルネットワークラベリングのための不確実性を考慮した自己学習
- Authors: Jianing Wang, Chengyu Wang, Jun Huang, Ming Gao, Aoying Zhou
- Abstract要約: 本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
- 参考スコア(独自算出の注目度): 29.744621356187764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural sequence labeling (NSL) aims at assigning labels for input language
tokens, which covers a broad range of applications, such as named entity
recognition (NER) and slot filling, etc. However, the satisfying results
achieved by traditional supervised-based approaches heavily depend on the large
amounts of human annotation data, which may not be feasible in real-world
scenarios due to data privacy and computation efficiency issues. This paper
presents SeqUST, a novel uncertain-aware self-training framework for NSL to
address the labeled data scarcity issue and to effectively utilize unlabeled
data. Specifically, we incorporate Monte Carlo (MC) dropout in Bayesian neural
network (BNN) to perform uncertainty estimation at the token level and then
select reliable language tokens from unlabeled data based on the model
confidence and certainty. A well-designed masked sequence labeling task with a
noise-robust loss supports robust training, which aims to suppress the problem
of noisy pseudo labels. In addition, we develop a Gaussian-based consistency
regularization technique to further improve the model robustness on
Gaussian-distributed perturbed representations. This effectively alleviates the
over-fitting dilemma originating from pseudo-labeled augmented data. Extensive
experiments over six benchmarks demonstrate that our SeqUST framework
effectively improves the performance of self-training, and consistently
outperforms strong baselines by a large margin in low-resource scenarios
- Abstract(参考訳): ニューラルシーケンスラベリング(NSL)は、名前付きエンティティ認識(NER)やスロットフィリングなど、幅広いアプリケーションをカバーする入力言語トークンにラベルを割り当てることを目的としている。
しかしながら、従来の教師付きアプローチによる満足度の高い結果は、大量の人間のアノテーションデータに大きく依存しており、データプライバシや計算効率の問題から現実のシナリオでは実現不可能である。
本稿では,ラベル付きデータ不足問題に対処し,ラベル付きデータを効果的に活用するために,NSLのための新しい未知の自己学習フレームワークであるSeqUSTを提案する。
具体的には,ベイズニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い,モデル信頼性と確実性に基づいてラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
さらに,gaussian-distributed perturbed表現のモデルのロバスト性をさらに向上させるために,gaussian-based consistency regularization techniqueを開発した。
これにより、擬似ラベル付き拡張データに由来する過剰なジレンマが効果的に緩和される。
6つのベンチマークに対する大規模な実験により、私たちのSeqUSTフレームワークは、自己学習のパフォーマンスを効果的に改善し、低リソースシナリオにおける大きなマージンによる強いベースラインを一貫して上回ります。
関連論文リスト
- An Embedding is Worth a Thousand Noisy Labels [0.11999555634662634]
本稿では,重み付けされたアダプティブNearest Neighborアプローチを用いてラベルノイズに対処するWANNを提案する。
WANNの参照手法は、様々な大きさの多様なデータセットや、様々なノイズタイプや重大さで優れていることを示す。
私たちのアプローチは、効率性と説明可能性を強調し、ディープニューラルネットワークトレーニングの固有の制限を克服するための、シンプルで堅牢なソリューションとして現れます。
論文 参考訳(メタデータ) (2024-08-26T15:32:31Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification [13.881283744970979]
ATMは、ラベルのないデータを活用するために自己学習を利用する新しいフレームワークであり、特定のALアルゴリズムに依存しない。
我々はATMが最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを実証した。
論文 参考訳(メタデータ) (2021-12-16T11:09:48Z) - Robustness and reliability when training with noisy labels [12.688634089849023]
教師付き学習のためのデータの遅延は、コストと時間を要する可能性がある。
ディープニューラルネットワークは、ランダムラベルの適合、正規化、ロバストな損失関数の使用を証明している。
論文 参考訳(メタデータ) (2021-10-07T10:30:20Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。