論文の概要: Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition
- arxiv url: http://arxiv.org/abs/2211.00174v1
- Date: Mon, 31 Oct 2022 22:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:51:39.798490
- Title: Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition
- Title(参考訳): ストリーミング音声認識用トランスコーダの音声/テキスト合同学習
- Authors: Suyoun Kim, Ke Li, Lucas Kabela, Rongqing Huang, Jiedan Zhu, Ozlem
Kalinli, Duc Le
- Abstract要約: トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 13.542483062256109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an increasing interest in two-pass streaming
end-to-end speech recognition (ASR) that incorporates a 2nd-pass rescoring
model on top of the conventional 1st-pass streaming ASR model to improve
recognition accuracy while keeping latency low. One of the latest 2nd-pass
rescoring model, Transformer Rescorer, takes the n-best initial outputs and
audio embeddings from the 1st-pass model, and then choose the best output by
re-scoring the n-best initial outputs. However, training this Transformer
Rescorer requires expensive paired audio-text training data because the model
uses audio embeddings as input. In this work, we present our Joint Audio/Text
training method for Transformer Rescorer, to leverage unpaired text-only data
which is relatively cheaper than paired audio-text data. We evaluate
Transformer Rescorer with our Joint Audio/Text training on Librispeech dataset
as well as our large-scale in-house dataset and show that our training method
can improve word error rate (WER) significantly compared to standard
Transformer Rescorer without requiring any extra model parameters or latency.
- Abstract(参考訳): 近年,従来の第1パスストリーミングASRモデルの上に第2パス再構成モデルを組み込んだ2パスストリーミングエンドツーエンド音声認識(ASR)への関心が高まっており,レイテンシを低く保ちながら認識精度の向上が図られている。
最新の第2パス再構成モデルであるTransformer Rescorerは、第1パスモデルからn-best初期出力とオーディオ埋め込みを取得し、n-best初期出力を再描画することで最良の出力を選択する。
しかし、このTransformer Rescorerのトレーニングには、入力としてオーディオ埋め込みを使用するため、高価なペアオーディオテキストトレーニングデータが必要である。
本研究では,Transformer Rescorer を用いた音声/テキスト共同学習手法を提案する。
我々は,Librispeechデータセットと大規模社内データセットのジョイントオーディオ/テキストトレーニングによるTransformer Rescorerの評価を行い,モデルパラメータや遅延を必要とせずに,標準的なTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができることを示す。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech
without Explicit Alignment [2.7402733069181]
JDI-T(Jointly Training Duration Informed Transformer)を提案する。
JDI-Tはフィードフォワード変換器で、明示的なアライメントを伴わない持続予測器を共同で訓練している。
共同訓練中, 自動回帰変換器から音素長を抽出した。
論文 参考訳(メタデータ) (2020-05-15T22:06:13Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。