論文の概要: Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer
- arxiv url: http://arxiv.org/abs/2207.14736v1
- Date: Fri, 29 Jul 2022 15:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:12:45.178946
- Title: Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer
- Title(参考訳): ニューラルトランスデューサの教師なし微調整と自己学習のための多重ハイブリッドRNN-T損失
- Authors: Cong-Thanh Do, Mohan Li, and Rama Doddipatla
- Abstract要約: 本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
- 参考スコア(独自算出の注目度): 20.8850874806462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new approach to perform unsupervised fine-tuning and
self-training using unlabeled speech data for recurrent neural network
(RNN)-Transducer (RNN-T) end-to-end (E2E) automatic speech recognition (ASR)
systems. Conventional systems perform fine-tuning/self-training using ASR
hypothesis as the targets when using unlabeled audio data and are susceptible
to the ASR performance of the base model. Here in order to alleviate the
influence of ASR errors while using unlabeled data, we propose a
multiple-hypothesis RNN-T loss that incorporates multiple ASR 1-best hypotheses
into the loss function. For the fine-tuning task, ASR experiments on
Librispeech show that the multiple-hypothesis approach achieves a relative
reduction of 14.2% word error rate (WER) when compared to the single-hypothesis
approach, on the test_other set. For the self-training task, ASR models are
trained using supervised data from Wall Street Journal (WSJ), Aurora-4 along
with CHiME-4 real noisy data as unlabeled data. The multiple-hypothesis
approach yields a relative reduction of 3.3% WER on the CHiME-4's
single-channel real noisy evaluation set when compared with the
single-hypothesis approach.
- Abstract(参考訳): 本稿では、リカレントニューラルネットワーク(RNN-T)エンドツーエンド(E2E)自動音声認識(ASR)システムにおいて、ラベルのない音声データを用いて教師なしの微調整と自己学習を行う新しい手法を提案する。
従来のシステムは、未ラベルのオーディオデータを使用する場合、ターゲットとしてASR仮説を用いて微調整/自己学習を行い、ベースモデルのASR性能に影響を受けやすい。
ここでは、ラベル付きデータを用いた場合のASR誤差の影響を軽減するために、複数のASR 1-best仮説を損失関数に組み込んだ多重仮説RNN-T損失を提案する。
微調整タスクについては、librispeech における asr 実験により、テスト_other セットにおいて、単調アプローチと比較して、マルチハイポテシスアプローチが 14.2% の単語誤り率 (wer) を相対的に減少させることを示した。
自己学習タスクでは,ウォールストリートジャーナル(WSJ)やオーロラ4,CHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
マルチハイポテーシス法は, シングルハイポテーシス法と比較して, CHiME-4 の単一チャネル実雑音評価セットに対して相対的に3.3%の WER を減少させる。
関連論文リスト
- Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。