論文の概要: Self-training and Pre-training are Complementary for Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.11430v1
- Date: Thu, 22 Oct 2020 04:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:28:44.139898
- Title: Self-training and Pre-training are Complementary for Speech Recognition
- Title(参考訳): 自己学習と事前学習は音声認識の補完となる
- Authors: Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello,
Alexis Conneau, Ronan Collobert, Gabriel Synnaeve, Michael Auli
- Abstract要約: ラベルなしデータを用いた音声認識システムを改善するための効果的な手法として,自己学習と教師なし事前学習が登場している。
擬似ラベル付けとwav2vec 2.0による事前学習は,様々なラベル付きデータ設定において補完的であることを示す。
- 参考スコア(独自算出の注目度): 64.85342993297677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training and unsupervised pre-training have emerged as effective
approaches to improve speech recognition systems using unlabeled data. However,
it is not clear whether they learn similar patterns or if they can be
effectively combined. In this paper, we show that pseudo-labeling and
pre-training with wav2vec 2.0 are complementary in a variety of labeled data
setups. Using just 10 minutes of labeled data from Libri-light as well as 53k
hours of unlabeled data from LibriVox achieves WERs of 3.0%/5.2% on the clean
and other test sets of Librispeech - rivaling the best published systems
trained on 960 hours of labeled data only a year ago. Training on all labeled
data of Librispeech achieves WERs of 1.5%/3.1%.
- Abstract(参考訳): 自己学習と教師なし事前学習は、ラベルなしデータを用いた音声認識システムを改善する効果的なアプローチとして登場した。
しかし、同様のパターンを学習するか、効果的に組み合わせられるかは明らかではない。
本稿では,wav2vec 2.0を用いた擬似ラベルと事前トレーニングが,様々なラベル付きデータセットにおいて補完的であることを示す。
Libri-lightから10分間のラベル付きデータと53k時間のラベル付きデータを使用して、LibriVoxのWERは、わずか1年前の960時間のラベル付きデータでトレーニングされた最高のシステムに匹敵する、クリーンで他のテストセットであるLibrispeechで3.0%/5.2%を達成した。
Librispeechのラベル付きデータのトレーニングにより、WERは1.5%/3.1%に達する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Neighborhood-Regularized Self-Training for Learning with Few Labels [21.7848889781112]
自己学習の欠点の1つは、誤った擬似ラベルからのラベルノイズに弱いことである。
そこで我々は, 周辺住民によるサンプル選択手法を開発し, ノイズのある擬似ラベルの問題に対処する。
提案したデータ選択戦略は擬似ラベルのノイズを36.8%削減し、最良のベースラインと比較して57.3%の時間を節約する。
論文 参考訳(メタデータ) (2023-01-10T00:07:33Z) - LST: Lexicon-Guided Self-Training for Few-Shot Text Classification [3.7277082975620806]
LSTは,レキシコンを用いて擬似ラベル機構を誘導する簡単な自己学習手法である。
5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して、この単純で巧妙な語彙知識が1.0-2.0%のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2022-02-05T14:33:12Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。