論文の概要: Analysis and Assessment of Controllability of an Expressive Deep
Learning-based TTS system
- arxiv url: http://arxiv.org/abs/2103.04097v1
- Date: Sat, 6 Mar 2021 11:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:53:42.622412
- Title: Analysis and Assessment of Controllability of an Expressive Deep
Learning-based TTS system
- Title(参考訳): 表現型深層学習型TSシステムの制御性の解析と評価
- Authors: No\'e Tits, Kevin El Haddad and Thierry Dutoit
- Abstract要約: 本研究では,連続制御のためのデータセット上で訓練したExpressive TTSシステムの制御性について検討する。
データセットは、女性スピーカーが読み取ったオーディオブックに基づくblizzard 2013データセットである。
- 参考スコア(独自算出の注目度): 8.607031377541034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the controllability of an Expressive TTS system
trained on a dataset for a continuous control. The dataset is the Blizzard 2013
dataset based on audiobooks read by a female speaker containing a great
variability in styles and expressiveness. Controllability is evaluated with
both an objective and a subjective experiment. The objective assessment is
based on a measure of correlation between acoustic features and the dimensions
of the latent space representing expressiveness. The subjective assessment is
based on a perceptual experiment in which users are shown an interface for
Controllable Expressive TTS and asked to retrieve a synthetic utterance whose
expressiveness subjectively corresponds to that a reference utterance.
- Abstract(参考訳): 本稿では,連続制御のためのデータセット上で学習したExpressive TTSシステムの制御性について検討する。
データセットはblizzard 2013データセットで、女性スピーカーが読み取るオーディオブックに基づいており、スタイルや表現力に大きな変動がある。
制御性は主観的実験と主観的実験の両方で評価される。
客観評価は, 音響特徴量と表現性を表す潜在空間の次元との相関を指標として行う。
主観評価は、ユーザが制御可能表現型TSのインタフェースを提示し、参照発話に対応する主観的な表現性を持つ合成発話を検索する知覚実験に基づいている。
関連論文リスト
- Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文 参考訳(メタデータ) (2024-06-02T07:54:33Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。