論文の概要: SCaLa: Supervised Contrastive Learning for End-to-End Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2110.04187v1
- Date: Fri, 8 Oct 2021 15:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:51:33.601754
- Title: SCaLa: Supervised Contrastive Learning for End-to-End Automatic Speech
Recognition
- Title(参考訳): SCaLa: エンドツーエンド音声認識のためのコントラスト学習
- Authors: Li Fu, Xiaoxiao Li, Runyu Wang, Zhengchen Zhang, Youzheng Wu, Xiaodong
He, Bowen Zhou
- Abstract要約: 本稿では、エンドツーエンドのASRシステムのための音韻情報学習を強化するために、SCaLa(Supervised Contrastive Learning)の新たなフレームワークを提案する。
具体的には、完全に教師された設定にMCPC(Masked Contrastive Predictive Coding)を導入する。
音素学習を明示的に監視するために、SCaLaは、予め訓練された音響モデルから抽出された音素の強制アライメントに対応する可変長エンコーダ特徴をまずマスキングし、コントラスト学習によりマスクされた音素を予測する。
- 参考スコア(独自算出の注目度): 36.766303689895686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Automatic Speech Recognition (ASR) models are usually trained to
reduce the losses of the whole token sequences, while neglecting explicit
phonemic-granularity supervision. This could lead to recognition errors due to
similar-phoneme confusion or phoneme reduction. To alleviate this problem, this
paper proposes a novel framework of Supervised Contrastive Learning (SCaLa) to
enhance phonemic information learning for end-to-end ASR systems. Specifically,
we introduce the self-supervised Masked Contrastive Predictive Coding (MCPC)
into the fully-supervised setting. To supervise phoneme learning explicitly,
SCaLa first masks the variable-length encoder features corresponding to
phonemes given phoneme forced-alignment extracted from a pre-trained acoustic
model, and then predicts the masked phonemes via contrastive learning. The
phoneme forced-alignment can mitigate the noise of positive-negative pairs in
self-supervised MCPC. Experimental results conducted on reading and spontaneous
speech datasets show that the proposed approach achieves 2.84% and 1.38%
Character Error Rate (CER) reductions compared to the baseline, respectively.
- Abstract(参考訳): エンドツーエンドの音声認識(ASR)モデルは通常、トークンシーケンス全体の損失を減らすために訓練される。
これは、類似音素の混乱や音素の減少による認識誤差につながる可能性がある。
この問題を軽減するために,エンドツーエンドのASRシステムのための音韻情報学習を強化するために,SCaLa(Supervised Contrastive Learning)の新たなフレームワークを提案する。
具体的には、完全に教師された設定にMCPC(Masked Contrastive Predictive Coding)を導入する。
音素学習を明示的に監視するために、SCaLaは、予め訓練された音響モデルから抽出された音素の強制アライメントに対応する可変長エンコーダ特徴をまずマスキングし、コントラスト学習によりマスクされた音素を予測する。
音素強制アライメントは、自己教師型MCPCにおける正負対の雑音を軽減することができる。
その結果, 提案手法は, ベースラインに比べて2.84%, 1.38%の文字誤り率(CER)の低減を実現していることがわかった。
関連論文リスト
- High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。