論文の概要: Self-supervised Learning with Random-projection Quantizer for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2202.01855v1
- Date: Thu, 3 Feb 2022 21:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 16:12:53.308801
- Title: Self-supervised Learning with Random-projection Quantizer for Speech
Recognition
- Title(参考訳): 音声認識のためのランダム投影量子化器を用いた自己教師あり学習
- Authors: Chung-Cheng Chiu, James Qin, Yu Zhang, Jiahui Yu, Yonghui Wu
- Abstract要約: 音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
- 参考スコア(独自算出の注目度): 51.24368930992091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple and effective self-supervised learning approach for
speech recognition. The approach learns a model to predict the masked speech
signals, in the form of discrete labels generated with a random-projection
quantizer. In particular the quantizer projects speech inputs with a randomly
initialized matrix, and does a nearest-neighbor lookup in a
randomly-initialized codebook. Neither the matrix nor the codebook is updated
during self-supervised learning. Since the random-projection quantizer is not
trained and is separated from the speech recognition model, the design makes
the approach flexible and is compatible with universal speech recognition
architecture. On LibriSpeech our approach achieves similar word-error-rates as
previous work using self-supervised learning with non-streaming models, and
provides lower word-error-rates and latency than wav2vec 2.0 and w2v-BERT with
streaming models. On multilingual tasks the approach also provides significant
improvement over wav2vec 2.0 and w2v-BERT.
- Abstract(参考訳): 音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
提案手法は,ランダム投影量化器で生成された離散ラベルを用いて,マスキング音声信号の予測モデルを学習する。
特に量子化器は、ランダムに初期化されたマトリクスで音声入力を投影し、ランダムに初期化されたコードブックで最寄りのneighborルックアップを行う。
マトリックスもコードブックも自己教師型学習では更新されない。
ランダム投影量子化器は訓練されず、音声認識モデルから分離されているため、この設計はアプローチを柔軟にし、普遍音声認識アーキテクチャと互換性がある。
LibriSpeechでは,従来の非ストリーミングモデルを用いた自己教師型学習と同様の単語エラー率を実現し,ストリーミングモデルを用いたwav2vec 2.0やw2v-BERTよりも低い単語エラー率とレイテンシを提供する。
多言語タスクにおいて、このアプローチはwav2vec 2.0とw2v-bertを大きく改善する。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。