論文の概要: Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator
- arxiv url: http://arxiv.org/abs/2302.14036v1
- Date: Mon, 27 Feb 2023 18:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-02-28 14:25:37.234141
- Title: Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator
- Title(参考訳): text-to-mel-spectrogram generatorを用いたエンドツーエンドasrのためのテキストのみのドメイン適応
- Authors: Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin,
Boris Ginsburg
- Abstract要約: 本稿では,音声データやテキストデータ,あるいは両者の混在を学習可能なエンドツーエンドのASRシステムを提案する。
テキストのみのトレーニングでは、拡張されたASRモデルは、テキストからメルスペクトログラムを生成する統合的なTSブロックを使用する。
- 参考スコア(独自算出の注目度): 7.464799322500134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an end-to-end ASR system that can be trained on transcribed speech
data, text data, or a mixture of both. For text-only training, our extended ASR
model uses an integrated auxiliary TTS block that creates mel spectrograms from
the text. This block contains a conventional non-autoregressive
text-to-mel-spectrogram generator augmented with a GAN enhancer to improve the
spectrogram quality. The proposed system can improve the accuracy of the ASR
model on a new domain by using text-only data, and allows to significantly
surpass conventional audio-text training by using large text corpora.
- Abstract(参考訳): 本稿では,音声データやテキストデータ,あるいは両者の混在を学習可能なエンドツーエンドのASRシステムを提案する。
テキストのみのトレーニングでは、拡張ASRモデルはテキストからメルスペクトログラムを生成する統合補助TSブロックを使用する。
このブロックは、ganエンハンサーを付加した従来の非自己回帰テキスト対メルスペクトログラム生成器を含み、スペクトログラム品質を向上させる。
提案システムは,テキストのみのデータを用いて新しいドメイン上でのASRモデルの精度を向上し,大規模なテキストコーパスを用いて従来の音声テキストトレーニングを大幅に上回ることができる。
関連論文リスト
- On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Context-Aware Transformer Transducer for Speech Recognition [21.916660252023707]
本稿では,この文脈信号を利用して,最先端の変圧器ベースASRシステムを改善する新しい文脈対応変圧器トランスデューサ(CATT)ネットワークを提案する。
BERTベースのコンテキストエンコーダを用いたCATTは、ベースライントランスデューサの単語誤り率を改善し、既存の深層文脈モデルよりも24.2%、19.4%向上することを示す。
論文 参考訳(メタデータ) (2021-11-05T04:14:35Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。