論文の概要: A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis
- arxiv url: http://arxiv.org/abs/2309.11849v1
- Date: Thu, 21 Sep 2023 07:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:32:17.481482
- Title: A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis
- Title(参考訳): 細粒度感情分析のための談話レベル多スケール韻律モデル
- Authors: Xianhao Wei, Jia Jia, Xiang Li, Zhiyong Wu, Ziyi Wang
- Abstract要約: 本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
- 参考スコア(独自算出の注目度): 19.271542595753267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores predicting suitable prosodic features for fine-grained
emotion analysis from the discourse-level text. To obtain fine-grained
emotional prosodic features as predictive values for our model, we extract a
phoneme-level Local Prosody Embedding sequence (LPEs) and a Global Style
Embedding as prosodic speech features from the speech with the help of a style
transfer model. We propose a Discourse-level Multi-scale text Prosodic Model
(D-MPM) that exploits multi-scale text to predict these two prosodic features.
The proposed model can be used to analyze better emotional prosodic features
and thus guide the speech synthesis model to synthesize more expressive speech.
To quantitatively evaluate the proposed model, we contribute a new and
large-scale Discourse-level Chinese Audiobook (DCA) dataset with more than
13,000 utterances annotated sequences to evaluate the proposed model.
Experimental results on the DCA dataset show that the multi-scale text
information effectively helps to predict prosodic features, and the
discourse-level text improves both the overall coherence and the user
experience. More interestingly, although we aim at the synthesis effect of the
style transfer model, the synthesized speech by the proposed text prosodic
analysis model is even better than the style transfer from the original speech
in some user evaluation indicators.
- Abstract(参考訳): 本稿では、談話レベルのテキストから詳細な感情分析に適した韻律的特徴を予測する。
本モデルでは,音素レベルの局所韻律埋め込みシーケンス (LPEs) とグローバルスタイル埋め込み (Global Style Embedding) を音声からの韻律的音声特徴として抽出する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPMを提案する。
提案モデルは,感情的韻律的特徴を分析し,より表現豊かな音声を合成するための音声合成モデルを導出するために有効である。
提案手法を定量的に評価するために,13,000以上の発話をアノテートした中国語オーディオブック(dca)データセットを作成し,提案モデルの評価を行った。
DCAデータセットの実験結果から,マルチスケールテキスト情報は韻律的特徴の予測に有効であり,談話レベルのテキストは全体の一貫性とユーザエクスペリエンスを向上することが示された。
さらに興味深いことに、我々はスタイル伝達モデルの合成効果を目指しているが、提案したテキスト韻律解析モデルによる合成音声は、一部のユーザ評価指標における元の音声からのスタイル伝達よりも優れている。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis [3.6159128762538018]
フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:45:01Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。