論文の概要: Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end
speech recognition
- arxiv url: http://arxiv.org/abs/2103.15515v1
- Date: Mon, 29 Mar 2021 11:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:12:14.234582
- Title: Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end
speech recognition
- Title(参考訳): マルチハイブリッドCTCに基づくエンドツーエンド音声認識の半教師付き適応
- Authors: Cong-Thanh Do, Rama Doddipatla, Thomas Hain
- Abstract要約: 本稿では,エンドツーエンド音声認識のための適応手法を提案する。
接続性時間分類(CTC)損失関数の計算には,複数自動音声認識(ASR) 1-best仮説が組み込まれている。
提案手法は,クリーンおよびマルチコンディション学習シナリオにおいて,6.6%,5.8%の単語誤り率 (wer) 削減を実現する。
- 参考スコア(独自算出の注目度): 44.600722754846515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an adaptation method for end-to-end speech recognition.
In this method, multiple automatic speech recognition (ASR) 1-best hypotheses
are integrated in the computation of the connectionist temporal classification
(CTC) loss function. The integration of multiple ASR hypotheses helps
alleviating the impact of errors in the ASR hypotheses to the computation of
the CTC loss when ASR hypotheses are used. When being applied in
semi-supervised adaptation scenarios where part of the adaptation data do not
have labels, the CTC loss of the proposed method is computed from different ASR
1-best hypotheses obtained by decoding the unlabeled adaptation data.
Experiments are performed in clean and multi-condition training scenarios where
the CTC-based end-to-end ASR systems are trained on Wall Street Journal (WSJ)
clean training data and CHiME-4 multi-condition training data, respectively,
and tested on Aurora-4 test data. The proposed adaptation method yields 6.6%
and 5.8% relative word error rate (WER) reductions in clean and multi-condition
training scenarios, respectively, compared to a baseline system which is
adapted with part of the adaptation data having manual transcriptions using
back-propagation fine-tuning.
- Abstract(参考訳): 本稿では,エンドツーエンド音声認識のための適応手法を提案する。
本手法では、接続子時相分類(ctc)損失関数の計算に、複数の自動音声認識(asr)1-best仮説を統合する。
複数のASR仮説の統合は、ASR仮説を用いた場合のCTC損失の計算に対するASR仮説におけるエラーの影響を軽減するのに役立つ。
適応データの一部にラベルがない半教師付き適応シナリオに適用した場合、ラベルなし適応データを復号して得られたASR 1-best仮説から提案手法のCTC損失を算出する。
CTCベースのエンドツーエンドASRシステムをウォールストリートジャーナル(WSJ)のクリーントレーニングデータとCHiME-4のマルチコンディショントレーニングデータでトレーニングし、オーロラ4のテストデータでテストする、クリーンおよびマルチコンディショントレーニングシナリオで実験を行う。
提案手法は, バックプロパゲーション微調整を用いた手書き入力データの一部に適応したベースラインシステムと比較して, クリーンおよびマルチコンディショントレーニングシナリオにおける単語誤り率(WER)の6.6%と5.8%を減少させる。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。