論文の概要: Transformer-based Models of Text Normalization for Speech Applications
- arxiv url: http://arxiv.org/abs/2202.00153v1
- Date: Tue, 1 Feb 2022 00:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:38:48.669116
- Title: Transformer-based Models of Text Normalization for Speech Applications
- Title(参考訳): トランスに基づく音声用テキスト正規化モデル
- Authors: Jae Hun Ro, Felix Stahlberg, Ke Wu, Shankar Kumar
- Abstract要約: テキストの正規化は、テキスト音声(TTS)のような音声アプリケーションにとって不可欠である
TTSでは、「1995」を「1995年生まれ」で「19,9,5」、あるいは「1995年ページ」で「1,000,9,9,5」と発音するかを判断しなければならない。
音声のテキスト正規化における様々なトランスフォーマーに基づくシーケンス・ツー・シーケンスモデルの比較実験を行った。
- 参考スコア(独自算出の注目度): 11.60443461559488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text normalization, or the process of transforming text into a consistent,
canonical form, is crucial for speech applications such as text-to-speech
synthesis (TTS). In TTS, the system must decide whether to verbalize "1995" as
"nineteen ninety five" in "born in 1995" or as "one thousand nine hundred
ninety five" in "page 1995". We present an experimental comparison of various
Transformer-based sequence-to-sequence (seq2seq) models of text normalization
for speech and evaluate them on a variety of datasets of written text aligned
to its normalized spoken form. These models include variants of the 2-stage
RNN-based tagging/seq2seq architecture introduced by Zhang et al. (2019), where
we replace the RNN with a Transformer in one or more stages, as well as vanilla
Transformers that output string representations of edit sequences. Of our
approaches, using Transformers for sentence context encoding within the 2-stage
model proved most effective, with the fine-tuned BERT encoder yielding the best
performance.
- Abstract(参考訳): テキスト正規化(テキスト正規化、英: Text normalization)とは、テキストから音声合成(TTS)などの音声応用において重要である。
ttsでは、システムは "1995" を "19 ninety five" を "born in 1995" として、あるいは "1 thousand nine hundred ninety five" を "page 1995" として、動詞化するかどうかを決定する必要がある。
本稿では,トランスフォーマーを用いたテキスト正規化のシーケンス・ツー・シーケンス(seq2seq)モデルを実験的に比較し,その正規化音声形式に整合したテキストのさまざまなデータセット上で評価する。
これらのモデルには、Zhang et al. (2019) によって導入された2段階の RNN ベースのタグ付け/seq2seq アーキテクチャの変種が含まれており、1つ以上のステージで RNN を Transformer に置き換えるだけでなく、編集シーケンスの文字列表現を出力するvanilla Transformer も含んでいる。
提案手法では,2段階モデルにおける文文脈エンコーディングに Transformer を用いることで,細調整したBERTエンコーダが最高の性能を得ることができた。
関連論文リスト
- Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Non-autoregressive sequence-to-sequence voice conversion [47.521186595305984]
本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2021-04-14T11:53:51Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。