論文の概要: Pseudo Label Is Better Than Human Label
- arxiv url: http://arxiv.org/abs/2203.12668v1
- Date: Tue, 22 Mar 2022 00:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 05:28:12.378541
- Title: Pseudo Label Is Better Than Human Label
- Title(参考訳): Pseudo Labelは人間のラベルより優れている
- Authors: Dongseong Hwang, Khe Chai Sim, Zhouyuan Huo, Trevor Strohman
- Abstract要約: 近年の自己教師型・半教師型学習技術を利用して,教師モデルを用いて高品質な擬似ラベルを作成できることを示す。
このモデルは音声検索タスクで4.0%の単語誤り率(WER)を達成し、ベースラインよりも11.1%向上した。
- 参考スコア(独自算出の注目度): 23.458784309706395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art automatic speech recognition (ASR) systems are trained with
tens of thousands of hours of labeled speech data. Human transcription is
expensive and time consuming. Factors such as the quality and consistency of
the transcription can greatly affect the performance of the ASR models trained
with these data. In this paper, we show that we can train a strong teacher
model to produce high quality pseudo labels by utilizing recent self-supervised
and semi-supervised learning techniques. Specifically, we use JUST (Joint
Unsupervised/Supervised Training) and iterative noisy student teacher training
to train a 600 million parameter bi-directional teacher model. This model
achieved 4.0% word error rate (WER) on a voice search task, 11.1% relatively
better than a baseline. We further show that by using this strong teacher model
to generate high-quality pseudo labels for training, we can achieve 13.6%
relative WER reduction (5.9% to 5.1%) for a streaming model compared to using
human labels.
- Abstract(参考訳): 最先端自動音声認識(asr)システムは、何万時間ものラベル付き音声データで訓練される。
ヒトの転写は高価で時間を要する。
転写の品質や一貫性などの要因は、これらのデータで訓練されたASRモデルの性能に大きな影響を与える。
本稿では,近年の自己教師と半教師による学習技術を用いて,教師モデルを用いて高品質な疑似ラベルを作成できることを示す。
具体的には、JUST(Joint Unsupervised/Supervised Training)と反復雑音の学生教師トレーニングを用いて、6億のパラメータ双方向教師モデルを訓練する。
このモデルは音声検索タスクで4.0%の単語誤り率(wer)を達成し、ベースラインよりも11.1%優れている。
さらに,この強力な教師モデルを用いて,高品質な擬似ラベルを生成することにより,ストリーミングモデルに対するWERの相対減少率(5.9%から5.1%)を,人間のラベルと比較して13.6%に抑えることができることを示した。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping [1.7593130415737603]
本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルを提案する。
我々は、強力なConformer RNN-Tベースラインモデルを用いて、ラベルのない公開データに対して擬似ラベルを生成する。
これらの擬似ラベル付きデータを追加することで、我々の非同期およびリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%、24.3%向上した。
論文 参考訳(メタデータ) (2024-04-10T20:40:24Z) - Improving Classification Performance With Human Feedback: Label a few,
we label the rest [2.7386128680964408]
本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
論文 参考訳(メタデータ) (2024-01-17T19:13:05Z) - Comparison of Soft and Hard Target RNN-T Distillation for Large-scale
ASR [12.953149757081025]
我々は、最先端(SoTA)自動音声認識(ASR)で広く使われているRNN-Tモデルの知識蒸留に焦点を当てた。
その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。
重み0.6Bの大規模モデルでは, ソフトターゲット蒸留を用いた雑音学習によるLibriSpeech上での新しいSoTA単語誤り率(WER)を実現する。
論文 参考訳(メタデータ) (2022-10-11T21:32:34Z) - Online pseudo labeling for polyp segmentation with momentum networks [5.920947681019466]
半教師付き学習では、ラベルの品質がモデルパフォーマンスにおいて重要な役割を果たす。
本稿では,学生ネットワークのトレーニングに使用される擬似ラベルの品質を高めるための,新しい擬似ラベル方式を提案する。
実験結果は, 通常の手法を3%超え, ある程度のデータセットで完全に監督された結果に近づいた。
論文 参考訳(メタデータ) (2022-09-29T07:33:54Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Contrastive Semi-supervised Learning for ASR [16.070972355201253]
視覚オブジェクトの教師あり学習のためのコントラスト半教師学習(CSL)を提案する。
CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。
監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のクロスエントロピー擬似ラベル(CE-PL)と比較してWERを8%削減します。
論文 参考訳(メタデータ) (2021-03-09T00:20:37Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Self-training and Pre-training are Complementary for Speech Recognition [64.85342993297677]
ラベルなしデータを用いた音声認識システムを改善するための効果的な手法として,自己学習と教師なし事前学習が登場している。
擬似ラベル付けとwav2vec 2.0による事前学習は,様々なラベル付きデータ設定において補完的であることを示す。
論文 参考訳(メタデータ) (2020-10-22T04:15:37Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。