論文の概要: Exploring Machine Speech Chain for Domain Adaptation and Few-Shot
Speaker Adaptation
- arxiv url: http://arxiv.org/abs/2104.03815v1
- Date: Thu, 8 Apr 2021 14:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:55:37.531689
- Title: Exploring Machine Speech Chain for Domain Adaptation and Few-Shot
Speaker Adaptation
- Title(参考訳): ドメイン適応と少数話者適応のための機械音声連鎖の検討
- Authors: Fengpeng Yue, Yan Deng, Lei He, Tom Ko
- Abstract要約: Machine Speech Chainは、エンドツーエンドの自動音声認識(ASR)とテキスト音声(TTS)を1つのサークルに統合し、共同トレーニングを行う。
ニューラルTTSモデルとE2E ASRモデルの両方のドメイン適応を行うために,音声チェーンにおけるTSS->ASRパイプラインを検討する。
- 参考スコア(独自算出の注目度): 11.79922306758482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Speech Chain, which integrates both end-to-end (E2E) automatic speech
recognition (ASR) and text-to-speech (TTS) into one circle for joint training,
has been proven to be effective in data augmentation by leveraging large
amounts of unpaired data. In this paper, we explore the TTS->ASR pipeline in
speech chain to do domain adaptation for both neural TTS and E2E ASR models,
with only text data from target domain. We conduct experiments by adapting from
audiobook domain (LibriSpeech) to presentation domain (TED-LIUM), there is a
relative word error rate (WER) reduction of 10% for the E2E ASR model on the
TED-LIUM test set, and a relative WER reduction of 51.5% in synthetic speech
generated by neural TTS in the presentation domain. Further, we apply few-shot
speaker adaptation for the E2E ASR by using a few utterances from target
speakers in an unsupervised way, results in additional gains.
- Abstract(参考訳): エンドツーエンド(E2E)自動音声認識(ASR)とテキスト音声(TTS)の両方を1つのサークルに統合して共同訓練を行うマシン音声チェインは、大量の未ペアデータを活用することで、データ拡張に有効であることが証明されている。
本稿では,音声連鎖におけるTS->ASRパイプラインを用いて,ターゲット領域からのテキストデータのみを用いて,ニューラルTSモデルとE2E ASRモデルの両方のドメイン適応を行う。
我々は、オーディオブックドメイン(LibriSpeech)からプレゼンテーションドメイン(TED-Lium)に適応して実験を行い、TED-Liumテストセット上でのE2E ASRモデルの相対単語誤り率(WER)を10%削減し、プレゼンテーションドメインでニューラルTSによって生成された合成音声において相対WERを51.5%削減する。
さらに,対象話者からの発話を教師なしの方法で使用することにより,E2E ASRに少数話者適応を適用することにより,さらなる利得が得られる。
関連論文リスト
- Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。