論文の概要: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations
- arxiv url: http://arxiv.org/abs/2006.11477v3
- Date: Thu, 22 Oct 2020 06:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:28:57.501524
- Title: wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations
- Title(参考訳): wav2vec 2.0: 表現の自己教師付き学習のためのフレームワーク
- Authors: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli
- Abstract要約: 音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
- 参考スコア(独自算出の注目度): 51.25118580050847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show for the first time that learning powerful representations from speech
audio alone followed by fine-tuning on transcribed speech can outperform the
best semi-supervised methods while being conceptually simpler. wav2vec 2.0
masks the speech input in the latent space and solves a contrastive task
defined over a quantization of the latent representations which are jointly
learned. Experiments using all labeled data of Librispeech achieve 1.8/3.3 WER
on the clean/other test sets. When lowering the amount of labeled data to one
hour, wav2vec 2.0 outperforms the previous state of the art on the 100 hour
subset while using 100 times less labeled data. Using just ten minutes of
labeled data and pre-training on 53k hours of unlabeled data still achieves
4.8/8.2 WER. This demonstrates the feasibility of speech recognition with
limited amounts of labeled data.
- Abstract(参考訳): 音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、概念的にシンプルでありながら、最高の半教師付き手法よりも優れていることを示す。
wav2vec 2.0は、潜在空間における音声入力をマスクし、相互に学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
Librispeechのラベル付きデータを使った実験はクリーン/他のテストセットで1.8/3.3 WERを達成した。
ラベル付きデータの量を1時間に下げる場合、wav2vec 2.0は100時間サブセットで100倍少ないラベル付きデータを使用しながら、過去の技術状態よりも優れる。
ラベル付きデータのわずか10分と53k時間での事前トレーニングを使用すれば、4.8/8.2 WERが得られる。
これは限られたラベル付きデータによる音声認識の実現可能性を示す。
関連論文リスト
- Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Wav2vec-C: A Self-supervised Model for Speech Representation Learning [40.47940210640496]
Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた表現学習技術です。
提案する自己教師付きモデルはラベルなしデータ10k時間,ラベル付きデータ1k時間で微調整される。
論文 参考訳(メタデータ) (2021-03-09T16:44:45Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Self-training and Pre-training are Complementary for Speech Recognition [64.85342993297677]
ラベルなしデータを用いた音声認識システムを改善するための効果的な手法として,自己学習と教師なし事前学習が登場している。
擬似ラベル付けとwav2vec 2.0による事前学習は,様々なラベル付きデータ設定において補完的であることを示す。
論文 参考訳(メタデータ) (2020-10-22T04:15:37Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。