論文の概要: Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2106.08352v1
- Date: Tue, 15 Jun 2021 18:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:08:57.990123
- Title: Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis
- Title(参考訳): Ctrl-P:音声合成のための韻律変化の時間制御
- Authors: Devang S Ram Mohan, Vivian Hu, Tian Huey Teh, Alexandra
Torresquintero, Christopher G. R. Wallis, Marlene Staib, Lorenzo Foglianti,
Jiameng Gao, Simon King
- Abstract要約: テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
- 参考スコア(独自算出の注目度): 68.76620947298595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text does not fully specify the spoken form, so text-to-speech models must be
able to learn from speech data that vary in ways not explained by the
corresponding text. One way to reduce the amount of unexplained variation in
training data is to provide acoustic information as an additional learning
signal. When generating speech, modifying this acoustic information enables
multiple distinct renditions of a text to be produced.
Since much of the unexplained variation is in the prosody, we propose a model
that generates speech explicitly conditioned on the three primary acoustic
correlates of prosody: $F_{0}$, energy and duration. The model is flexible
about how the values of these features are specified: they can be externally
provided, or predicted from text, or predicted then subsequently modified.
Compared to a model that employs a variational auto-encoder to learn
unsupervised latent features, our model provides more interpretable,
temporally-precise, and disentangled control. When automatically predicting the
acoustic features from text, it generates speech that is more natural than that
from a Tacotron 2 model with reference encoder. Subsequent human-in-the-loop
modification of the predicted acoustic features can significantly further
increase naturalness.
- Abstract(参考訳): テキストは音声形式を完全に指定していないため、テキスト対音声モデルは、対応するテキストで説明されない方法で異なる音声データから学習しなくてはならない。
トレーニングデータにおける説明できない変動の量を減らす方法の1つは、付加的な学習信号として音響情報を提供することである。
音声を生成する場合、この音響情報を変更することで、複数の異なるテキストのレンドレーションを生成することができる。
説明不能な変化の多くは韻律内にあるため,本論文では,韻律の3つの一次音響相関式に明示的に条件付けされた音声を生成するモデルを提案する。
モデルは、これらの機能の値がどのように指定されるかに柔軟で、外部から提供したり、テキストから予測したり、その後修正されたりすることができる。
教師なしの潜在特徴を学習するために変分自動エンコーダを用いるモデルと比較して、我々のモデルはより解釈しやすく、時間的に正確で、絡み合った制御を提供する。
テキストから音響特徴を自動的に予測すると、参照エンコーダを備えたタコトロン2モデルより自然な音声を生成する。
その後、予測された音響特性のループ修正により、自然性が大幅に向上する。
関連論文リスト
- NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。