論文の概要: Analysis and Assessment of Controllability of an Expressive Deep
Learning-based TTS system
- arxiv url: http://arxiv.org/abs/2103.04097v1
- Date: Sat, 6 Mar 2021 11:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:53:42.622412
- Title: Analysis and Assessment of Controllability of an Expressive Deep
Learning-based TTS system
- Title(参考訳): 表現型深層学習型TSシステムの制御性の解析と評価
- Authors: No\'e Tits, Kevin El Haddad and Thierry Dutoit
- Abstract要約: 本研究では,連続制御のためのデータセット上で訓練したExpressive TTSシステムの制御性について検討する。
データセットは、女性スピーカーが読み取ったオーディオブックに基づくblizzard 2013データセットである。
- 参考スコア(独自算出の注目度): 8.607031377541034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the controllability of an Expressive TTS system
trained on a dataset for a continuous control. The dataset is the Blizzard 2013
dataset based on audiobooks read by a female speaker containing a great
variability in styles and expressiveness. Controllability is evaluated with
both an objective and a subjective experiment. The objective assessment is
based on a measure of correlation between acoustic features and the dimensions
of the latent space representing expressiveness. The subjective assessment is
based on a perceptual experiment in which users are shown an interface for
Controllable Expressive TTS and asked to retrieve a synthetic utterance whose
expressiveness subjectively corresponds to that a reference utterance.
- Abstract(参考訳): 本稿では,連続制御のためのデータセット上で学習したExpressive TTSシステムの制御性について検討する。
データセットはblizzard 2013データセットで、女性スピーカーが読み取るオーディオブックに基づいており、スタイルや表現力に大きな変動がある。
制御性は主観的実験と主観的実験の両方で評価される。
客観評価は, 音響特徴量と表現性を表す潜在空間の次元との相関を指標として行う。
主観評価は、ユーザが制御可能表現型TSのインタフェースを提示し、参照発話に対応する主観的な表現性を持つ合成発話を検索する知覚実験に基づいている。
関連論文リスト
- Multi-dimensional Evaluation of Empathetic Dialog Responses [5.411825323689905]
話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
内部の顧客サービス対話の分析に提案されたフレームワークを適用すると、2つの次元が相互接続されていることがわかる。
論文 参考訳(メタデータ) (2024-02-18T00:32:33Z) - A Study on Altering the Latent Space of Pretrained Text to Speech Models
for Improved Expressiveness [0.0]
本稿では,VAE ベースの TTS モデルで作業する場合の課題を特定し,潜時音声の特徴を変化させるための画像と画像の異なる手法を評価する。
本研究は,RTSシステムに表現性制御を付加することの複雑さと今後の研究への道を開くことに関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-11-17T13:07:00Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。