論文の概要: Wav2vec-C: A Self-supervised Model for Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2103.08393v1
- Date: Tue, 9 Mar 2021 16:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 04:17:12.186014
- Title: Wav2vec-C: A Self-supervised Model for Speech Representation Learning
- Title(参考訳): Wav2vec-C:音声表現学習のための自己教師型モデル
- Authors: Samik Sadhu, Di He, Che-Wei Huang, Sri Harish Mallidi, Minhua Wu,
Ariya Rastrow, Andreas Stolcke, Jasha Droppo, Roland Maas
- Abstract要約: Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた表現学習技術です。
提案する自己教師付きモデルはラベルなしデータ10k時間,ラベル付きデータ1k時間で微調整される。
- 参考スコア(独自算出の注目度): 40.47940210640496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wav2vec-C introduces a novel representation learning technique combining
elements from wav2vec 2.0 and VQ-VAE. Our model learns to reproduce quantized
representations from partially masked speech encoding using a contrastive loss
in a way similar to Wav2vec 2.0. However, the quantization process is
regularized by an additional consistency network that learns to reconstruct the
input features to the wav2vec 2.0 network from the quantized representations in
a way similar to a VQ-VAE model. The proposed self-supervised model is trained
on 10k hours of unlabeled data and subsequently used as the speech encoder in a
RNN-T ASR model and fine-tuned with 1k hours of labeled data. This work is one
of only a few studies of self-supervised learning on speech tasks with a large
volume of real far-field labeled data. The Wav2vec-C encoded representations
achieves, on average, twice the error reduction over baseline and a higher
codebook utilization in comparison to wav2vec 2.0
- Abstract(参考訳): Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた新しい表現学習技術を導入した。
本モデルでは,wav2vec 2.0に類似した方法を用いて,部分的にマスクされた音声符号化から量子化表現を再現することを学ぶ。
しかしながら、量子化プロセスは、VQ-VAEモデルに似た方法で量子化表現からwav2vec 2.0ネットワークへの入力特徴の再構成を学ぶ追加の整合ネットワークによって正規化される。
提案した自己教師型モデルは、10k時間のラベル付きデータに基づいてトレーニングされ、RNN-T ASRモデルの音声エンコーダとして使用され、1k時間のラベル付きデータで微調整される。
この研究は、大量の実遠距離ラベル付きデータを用いた音声タスクにおける自己教師付き学習のごく少数の研究の1つである。
Wav2vec-Cエンコード表現は平均してベースラインの2倍のエラー低減と、wav2vec 2.0と比較して高いコードブック利用を実現する
関連論文リスト
- Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Shrinking Bigfoot: Reducing wav2vec 2.0 footprint [4.708858512006221]
Wav2vec 2.0は最先端の音声認識モデルである。
wav2vec 2.0のレイテンシは、本番環境でボトルネックになる。
大規模言語モデルの領域から借用した複数のモデル圧縮手法を検討する。
論文 参考訳(メタデータ) (2021-03-29T16:50:28Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。