論文の概要: Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context
Prediction Network
- arxiv url: http://arxiv.org/abs/2109.10724v1
- Date: Wed, 22 Sep 2021 13:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 17:44:20.577407
- Title: Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context
Prediction Network
- Title(参考訳): 拡張文脈予測ネットワークを用いた低レイテンシインクリメンタルテキスト音声合成
- Authors: Takaaki Saeki, Shinnosuke Takamichi, and Hiroshi Saruwatari
- Abstract要約: 軽量モデルを用いて、観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。
実験結果から,提案手法は合成音声の質に匹敵する10倍の時間を要することがわかった。
- 参考スコア(独自算出の注目度): 41.4599368523939
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Incremental text-to-speech (TTS) synthesis generates utterances in small
linguistic units for the sake of real-time and low-latency applications. We
previously proposed an incremental TTS method that leverages a large
pre-trained language model to take unobserved future context into account
without waiting for the subsequent segment. Although this method achieves
comparable speech quality to that of a method that waits for the future
context, it entails a huge amount of processing for sampling from the language
model at each time step. In this paper, we propose an incremental TTS method
that directly predicts the unobserved future context with a lightweight model,
instead of sampling words from the large-scale language model. We perform
knowledge distillation from a GPT2-based context prediction network into a
simple recurrent model by minimizing a teacher-student loss defined between the
context embedding vectors of those models. Experimental results show that the
proposed method requires about ten times less inference time to achieve
comparable synthetic speech quality to that of our previous method, and it can
perform incremental synthesis much faster than the average speaking speed of
human English speakers, demonstrating the availability of our method to
real-time applications.
- Abstract(参考訳): 増分テキスト音声合成(TTS)は、リアルタイム・低レイテンシ用途のために、小さな言語単位で発話を生成する。
我々は以前,事前学習された大規模言語モデルを活用したインクリメンタルなtts手法を提案し,それに続くセグメントを待つことなく,未観測の将来の文脈を考慮に入れている。
本手法は,将来の文脈を待ち続ける手法に匹敵する音声品質を実現するが,各段階における言語モデルからのサンプリングには膨大な量の処理が必要である。
本稿では,大規模言語モデルから単語をサンプリングする代わりに,軽量モデルを用いて観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。
我々は,GPT2に基づく文脈予測ネットワークから,これらのモデルのコンテキスト埋め込みベクトル間で定義された教師学生の損失を最小限に抑えることで,シンプルな反復モデルに知識蒸留を行う。
実験の結果,提案手法は従来の手法と同等な合成音声品質を達成するのに約10倍の時間が必要であり,人間の英語話者の平均発話速度よりもずっと高速にインクリメンタル合成を行うことができ,リアルタイムアプリケーションへの適用性が示された。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。