論文の概要: USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder
- arxiv url: http://arxiv.org/abs/2202.06045v1
- Date: Sat, 12 Feb 2022 11:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:05:38.942263
- Title: USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder
- Title(参考訳): USTED:統一音声とテキストエンコーダデコーダによるASRの改善
- Authors: Bolaji Yusuf, Ankur Gandhe and Alex Sokolov
- Abstract要約: テキストからテキストへの補助的なタスクのセットと共同でASRモデルを訓練する。
ASRのみの基準線上でWERを16%, 20%の減少率で比較検討した。
我々は、Librispeechデータ上でマスク付き言語モデルを訓練したり、補助タスクとして機械翻訳を使用したりすることで、さらなる改善を実現している。
- 参考スコア(独自算出の注目度): 8.88137815551529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving end-to-end speech recognition by incorporating external text data
has been a longstanding research topic. There has been a recent focus on
training E2E ASR models that get the performance benefits of external text data
without incurring the extra cost of evaluating an external language model at
inference time. In this work, we propose training ASR model jointly with a set
of text-to-text auxiliary tasks with which it shares a decoder and parts of the
encoder. When we jointly train ASR and masked language model with the 960-hour
Librispeech and Opensubtitles data respectively, we observe WER reductions of
16% and 20% on test-other and test-clean respectively over an ASR-only baseline
without any extra cost at inference time, and reductions of 6% and 8% compared
to a stronger MUTE-L baseline which trains the decoder with the same text data
as our model. We achieve further improvements when we train masked language
model on Librispeech data or when we use machine translation as the auxiliary
task, without significantly sacrificing performance on the task itself.
- Abstract(参考訳): 外部テキストデータの導入によるエンドツーエンド音声認識の改善は,長年にわたる研究課題である。
最近のE2E ASRモデルのトレーニングでは、推論時に外部言語モデルを評価する余分なコストを発生させることなく、外部テキストデータのパフォーマンス上の利点を得ることができる。
本研究では,デコーダとエンコーダの一部を共有するテキスト・テキスト・テキスト補助タスクのセットと共同で,ASRモデルのトレーニングを提案する。
960 時間 Librispeech と Opensubtitles のデータを併用して ASR とマスク付き言語モデルを共同でトレーニングすると,提案モデルと同一のテキストデータでデコーダを訓練する MUTE-L ベースラインと比較して,ASR のみのベースライン上での WER の16% と 20% の削減,および 6% と 8% の削減が観察できる。
我々は、Librispeechデータ上でマスク付き言語モデルを訓練したり、機械翻訳を補助タスクとして使用する場合、タスク自体の性能を著しく損なうことなく、さらなる改善を実現する。
関連論文リスト
- Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。