論文の概要: StrengthNet: Deep Learning-based Emotion Strength Assessment for
Emotional Speech Synthesis
- arxiv url: http://arxiv.org/abs/2110.03156v2
- Date: Fri, 8 Oct 2021 03:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:55:07.780154
- Title: StrengthNet: Deep Learning-based Emotion Strength Assessment for
Emotional Speech Synthesis
- Title(参考訳): 感情音声合成のための深層学習に基づく感情強度評価
- Authors: Rui Liu, Berrak Sisman, Haizhou Li
- Abstract要約: 本稿では,強度予測のための深層学習に基づく感情力評価ネットワークを提案する。
本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。
実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する地上の真理スコアと高い相関性を示した。
- 参考スコア(独自算出の注目度): 82.39099867188547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, emotional speech synthesis has achieved remarkable performance. The
emotion strength of synthesized speech can be controlled flexibly using a
strength descriptor, which is obtained by an emotion attribute ranking
function. However, a trained ranking function on specific data has poor
generalization, which limits its applicability for more realistic cases. In
this paper, we propose a deep learning based emotion strength assessment
network for strength prediction that is referred to as StrengthNet. Our model
conforms to a multi-task learning framework with a structure that includes an
acoustic encoder, a strength predictor and an auxiliary emotion predictor. A
data augmentation strategy was utilized to improve the model generalization.
Experiments show that the predicted emotion strength of the proposed
StrengthNet are highly correlated with ground truth scores for seen and unseen
speech. Our codes are available at: https://github.com/ttslr/StrengthNet.
- Abstract(参考訳): 近年,感情音声合成が目覚ましい成果を上げている。
合成音声の感情強度は、感情属性ランキング関数によって得られる強度記述子を用いて柔軟に制御することができる。
しかし、特定のデータに対する訓練されたランキング関数は、より現実的なケースに適用性を制限するような一般化が不十分である。
本稿では,強度予測のための深層学習に基づく感情強度評価ネットワークを提案する。
本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。
データ拡張戦略をモデル一般化の改善に利用した。
実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する真実スコアと高い相関が示された。
私たちのコードは、https://github.com/ttslr/StrengthNet.comで利用可能です。
関連論文リスト
- AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition [0.015863809575305417]
本研究では、4つの有効な音声データベース上で訓練された音声感情認識モデルFSERを紹介する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、精神的および感情的な医療を改善するために使われる可能性がある。
論文 参考訳(メタデータ) (2021-09-15T05:03:24Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-16T15:49:15Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。