論文の概要: A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data
- arxiv url: http://arxiv.org/abs/2206.13240v1
- Date: Wed, 22 Jun 2022 12:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 01:19:43.282997
- Title: A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data
- Title(参考訳): 合成データを用いたエンドツーエンドASRシステムにおけるドメイン適応のための簡易ベースライン
- Authors: Raviraj Joshi, Anupam Singh
- Abstract要約: エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition(ASR) has been dominated by deep learning-based
end-to-end speech recognition models. These approaches require large amounts of
labeled data in the form of audio-text pairs. Moreover, these models are more
susceptible to domain shift as compared to traditional models. It is common
practice to train generic ASR models and then adapt them to target domains
using comparatively smaller data sets. We consider a more extreme case of
domain adaptation where text-only corpus is available. In this work, we propose
a simple baseline technique for domain adaptation in end-to-end speech
recognition models. We convert the text-only corpus to audio data using single
speaker Text to Speech (TTS) engine. The parallel data in the target domain is
then used to fine-tune the final dense layer of generic ASR models. We show
that single speaker synthetic TTS data coupled with final dense layer only
fine-tuning provides reasonable improvements in word error rates. We use text
data from address and e-commerce search domains to show the effectiveness of
our low-cost baseline approach on CTC and attention-based models.
- Abstract(参考訳): ASR(Automatic Speech Recognition)は、ディープラーニングに基づくエンドツーエンド音声認識モデルによって支配されている。
これらのアプローチは、音声とテキストのペアという形で大量のラベル付きデータを必要とする。
さらに、これらのモデルは従来のモデルに比べてドメインシフトの影響を受けやすい。
一般的なASRモデルをトレーニングし、比較的小さなデータセットを使用してターゲットドメインに適応させるのが一般的である。
テキストのみのコーパスが利用できるドメイン適応の極端な場合を考える。
本研究では,エンドツーエンド音声認識モデルにおけるドメイン適応のためのシンプルなベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
対象領域の並列データは、一般的なASRモデルの最終的な密度層を微調整するために使用される。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の適切な改善をもたらすことを示す。
アドレスとeコマース検索ドメインからのテキストデータを用いて,CTCおよび注目モデルに対する低コストベースラインアプローチの有効性を示す。
関連論文リスト
- Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition [44.914084799875866]
タスクベクトル算術は音声認識における合成と現実のギャップを軽減するのに有効であることを示す。
提案手法であるSyn2REALは,ベースラインよりも単語誤り率を平均10.03%改善することを示す。
論文 参考訳(メタデータ) (2024-06-05T04:25:56Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models [19.726699481313194]
そこで本稿では,新たなターゲットドメインにASRモデルを適用するための新たな戦略を提案する。
SLURPデータセットを用いた実験により,提案手法は未知のターゲットドメインに対して平均相対単語誤り率を28%向上させることができた。
論文 参考訳(メタデータ) (2023-09-18T15:43:08Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Improving Data Driven Inverse Text Normalization using Data Augmentation [14.820077884045645]
逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-20T06:07:26Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。