論文の概要: JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech
without Explicit Alignment
- arxiv url: http://arxiv.org/abs/2005.07799v3
- Date: Mon, 5 Oct 2020 02:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:44:13.296482
- Title: JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech
without Explicit Alignment
- Title(参考訳): JDI-T:明示的アライメントを伴わないテキスト音声変換器
- Authors: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam
Yoon
- Abstract要約: JDI-T(Jointly Training Duration Informed Transformer)を提案する。
JDI-Tはフィードフォワード変換器で、明示的なアライメントを伴わない持続予測器を共同で訓練している。
共同訓練中, 自動回帰変換器から音素長を抽出した。
- 参考スコア(独自算出の注目度): 2.7402733069181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Jointly trained Duration Informed Transformer (JDI-T), a
feed-forward Transformer with a duration predictor jointly trained without
explicit alignments in order to generate an acoustic feature sequence from an
input text. In this work, inspired by the recent success of the duration
informed networks such as FastSpeech and DurIAN, we further simplify its
sequential, two-stage training pipeline to a single-stage training.
Specifically, we extract the phoneme duration from the autoregressive
Transformer on the fly during the joint training instead of pretraining the
autoregressive model and using it as a phoneme duration extractor. To our best
knowledge, it is the first implementation to jointly train the feed-forward
Transformer without relying on a pre-trained phoneme duration extractor in a
single training pipeline. We evaluate the effectiveness of the proposed model
on the publicly available Korean Single speaker Speech (KSS) dataset compared
to the baseline text-to-speech (TTS) models trained by ESPnet-TTS.
- Abstract(参考訳): 本研究では、入力テキストから音響特徴系列を生成するために、時間予測器を明示的なアライメントなしで協調訓練したフィードフォワード変換器(JDI-T)を提案する。
本研究は,fastspeechやdurianのような継続時間情報ネットワークが最近成功したことに触発され,単段トレーニングに逐次的かつ2段階のトレーニングパイプラインをさらに単純化する。
具体的には, 自己回帰モデルの事前学習に代えて, 自己回帰トランスフォーマから音素持続時間を抽出するとともに, 音素持続時間抽出器として使用する。
我々の知る限り、単一の訓練パイプラインにおいて事前訓練された音素時間抽出器に頼ることなくフィードフォワード変換器を共同で訓練する最初の実装である。
ESPnet-TTSにより訓練されたベースライン音声合成(TTS)モデルと比較して,提案モデルの有効性を評価する。
関連論文リスト
- Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。