論文の概要: Learning From How Human Correct
- arxiv url: http://arxiv.org/abs/2102.00225v1
- Date: Sat, 30 Jan 2021 13:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 06:07:42.401824
- Title: Learning From How Human Correct
- Title(参考訳): 人間の正しさから学ぶ
- Authors: Tong Guo
- Abstract要約: 業界におけるNLPアプリケーションでは、手動でラベル付けしたデータには、ある種のノイズの多いデータがあります。
本稿では,ノイズの多いデータを探し出し,手動で再現する簡単な方法を提案する。
そして,人間の補正情報を深層学習モデルに組み込む新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In industry NLP application, our manually labeled data has a certain number
of noisy data. We present a simple method to find the noisy data and relabel
them manually, meanwhile we collect the correction information. Then we present
novel method to incorporate the human correction information into deep learning
model. Human know how to correct noisy data. So the correction information can
be inject into deep learning model. We do the experiment on our own text
classification dataset, which is manually labeled, because we relabel the noisy
data in our dataset for our industry application. The experiment result shows
that our method improve the classification accuracy from 91.7% to 92.5%. The
91.7% baseline is based on BERT training on the corrected dataset, which is
hard to surpass.
- Abstract(参考訳): 業界NLPアプリケーションでは、手作業によるラベル付きデータには、一定の数のノイズデータがあります。
ノイズのあるデータを見つけて手作業で再ラベルする簡単な方法を提示し、その間に補正情報を収集します。
そして,人間の補正情報を深層学習モデルに組み込む新しい手法を提案する。
人間は騒々しいデータを補正する方法を知っています。
そのため、深層学習モデルに補正情報を注入することができる。
業界アプリケーション用にデータセット内のノイズの多いデータをリラベルするため、手作業でラベル付けされた独自のテキスト分類データセットで実験を行います。
実験の結果, 分類精度は91.7%から92.5%に向上した。
91.7%のベースラインは、修正されたデータセットに関するBERTトレーニングに基づいている。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal [4.71154003227418]
本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音のあるラベルで学習する新しい手法 AGRAを提案する。
本手法は,サンプルの集合勾配と個々のサンプル勾配を比較して,対応するサンプルがモデルに役立つかどうかを動的に決定する。
いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示している。
論文 参考訳(メタデータ) (2023-06-07T15:10:01Z) - The Re-Label Method For Data-Centric Machine Learning [0.24475591916185496]
業界におけるディープラーニングアプリケーションでは、手動でラベル付けされたデータには、ある種のノイズの多いデータがあります。
本稿では,人間のラベル付けにおける参照としてモデル予測を考慮し,ノイズデータを探し出し,ノイズデータを再ラベルする簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-02-09T01:09:57Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Semi-supervised learning by selective training with pseudo labels via
confidence estimation [0.0]
疑似ラベルを用いた選択的トレーニングを採用した,新しい半教師付き学習(SSL)手法を提案する。
本手法では, 疑似ラベルを生成し, その信頼度を推定し, 疑似ラベルの正しさを推定する。
また,MixConfと呼ばれる新しいデータ拡張手法を提案し,トレーニングデータの数が少なくても信頼性校正モデルが得られるようにした。
論文 参考訳(メタデータ) (2021-03-15T08:00:33Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Self-training For Pre-training Language Models [0.5139874302398955]
業界におけるNLPアプリケーションでは、ユーザや顧客が生成する大量のデータがあります。
私たちの学習フレームワークは、この膨大な未ラベルデータに基づいています。
論文 参考訳(メタデータ) (2020-11-18T01:35:01Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。