論文の概要: Joint Masked CPC and CTC Training for ASR
- arxiv url: http://arxiv.org/abs/2011.00093v2
- Date: Sat, 13 Feb 2021 18:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:28:46.701392
- Title: Joint Masked CPC and CTC Training for ASR
- Title(参考訳): ASRにおけるCPCとCTCの併用訓練
- Authors: Chaitanya Talnikar, Tatiana Likhomanenko, Ronan Collobert, Gabriel
Synnaeve
- Abstract要約: ラベル付きデータとラベル付きデータの両方を利用するASRモデルの単段階トレーニングを実演する。
本研究では、教師なしデータを用いた下流ASRタスクにおいて、この共同学習手法が直接最適化されていることを示す。
- 参考スコア(独自算出の注目度): 29.41599824919278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has shown promise in learning representations
of audio that are useful for automatic speech recognition (ASR). But, training
SSL models like wav2vec~2.0 requires a two-stage pipeline. In this paper we
demonstrate a single-stage training of ASR models that can utilize both
unlabeled and labeled data. During training, we alternately minimize two
losses: an unsupervised masked Contrastive Predictive Coding (CPC) loss and the
supervised audio-to-text alignment loss Connectionist Temporal Classification
(CTC). We show that this joint training method directly optimizes performance
for the downstream ASR task using unsupervised data while achieving similar
word error rates to wav2vec~2.0 on the Librispeech 100-hour dataset. Finally,
we postulate that solving the contrastive task is a regularization for the
supervised CTC loss.
- Abstract(参考訳): 自己教師付き学習(SSL)は自動音声認識(ASR)に有用な音声の学習表現において有望であることを示す。
しかし、wav2vec~2.0のようなSSLモデルのトレーニングには、2段階のパイプラインが必要です。
本稿では,ラベル付きデータとラベル付きデータの両方を活用可能なASRモデルの単一ステージトレーニングについて述べる。
トレーニング中は、教師なしマスク付きコントラスト予測符号化(CPC)損失と教師付き音声-テキストアライメント損失(CTC)の2つの損失を交互に最小化する。
この共同学習手法は, 教師なしデータを用いた下流ASRタスクの性能を直接最適化し, 類似の単語誤り率をLibrispeech 100時間データセット上でwav2vec~2.0に設定する。
最後に、コントラストタスクの解決は教師付きctc損失の正規化であると仮定する。
関連論文リスト
- AsyCo: An Asymmetric Dual-task Co-training Model for Partial-label Learning [53.97072488455662]
自己学習モデルは、最先端のパフォーマンスを実現するが、誤って曖昧なインスタンスによって生じるエラーの蓄積問題に悩まされる。
本稿では,2つのネットワーク,すなわち曖昧なネットワークと補助的なネットワークに,異なる視点から明確に学習するよう強制する,AsyCoという非対称なデュアルタスク協調学習モデルを提案する。
AsyCoの有効性を実証するため、一様および一様にラベル付けされた部分ラベル付きデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-07-21T02:08:51Z) - Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。
本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。
提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-19T05:01:12Z) - Learning from Flawed Data: Weakly Supervised Automatic Speech
Recognition [30.544499309503863]
自動音声認識(ASR)システムの訓練には、大量の精度の高いペアデータが必要である。
人間のアノテーションは通常 "non-verbatim" の転写を行います。
オムニ時間分類(Omni-temporal Classification,OTC)は,ラベルの不確かさを明確に組み込んだ訓練基準である。
論文 参考訳(メタデータ) (2023-09-26T12:58:40Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。