論文の概要: Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning
- arxiv url: http://arxiv.org/abs/2206.07229v1
- Date: Wed, 15 Jun 2022 01:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 09:13:56.759891
- Title: Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning
- Title(参考訳): データ駆動型深層学習に基づく文章・未知音声の正確な感情強度評価
- Authors: Rui Liu, Berrak Sisman, Bj\"orn Schuller, Guanglai Gao and Haizhou Li
- Abstract要約: 本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
- 参考スコア(独自算出の注目度): 70.30713251031052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion classification of speech and assessment of the emotion strength are
required in applications such as emotional text-to-speech and voice conversion.
The emotion attribute ranking function based on Support Vector Machine (SVM)
was proposed to predict emotion strength for emotional speech corpus. However,
the trained ranking function doesn't generalize to new domains, which limits
the scope of applications, especially for out-of-domain or unseen speech. In
this paper, we propose a data-driven deep learning model, i.e. StrengthNet, to
improve the generalization of emotion strength assessment for seen and unseen
speech. This is achieved by the fusion of emotional data from various domains.
We follow a multi-task learning network architecture that includes an acoustic
encoder, a strength predictor, and an auxiliary emotion predictor. Experiments
show that the predicted emotion strength of the proposed StrengthNet is highly
correlated with ground truth scores for both seen and unseen speech. We release
the source codes at: https://github.com/ttslr/StrengthNet.
- Abstract(参考訳): 音声の感情分類と感情強度の評価は、感情的テキスト音声変換や音声変換などの応用に必要である。
サポートベクターマシン(svm)に基づく感情属性ランキング関数は感情音声コーパスの感情強度を予測するために提案されている。
しかし、トレーニングされたランキング関数は新しいドメインに一般化されず、アプリケーションの範囲を制限している。
本稿では,データ駆動型深層学習モデルである strengthnet を提案する。
これは様々な領域からの感情データの融合によって達成される。
我々は,音響エンコーダ,強度予測器,補助感情予測器を含むマルチタスク学習ネットワークアーキテクチャに従う。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
ソースコードはhttps://github.com/ttslr/strengthnet。
関連論文リスト
- Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - StrengthNet: Deep Learning-based Emotion Strength Assessment for
Emotional Speech Synthesis [82.39099867188547]
本稿では,強度予測のための深層学習に基づく感情力評価ネットワークを提案する。
本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。
実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する地上の真理スコアと高い相関性を示した。
論文 参考訳(メタデータ) (2021-10-07T03:16:15Z) - FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition [0.015863809575305417]
本研究では、4つの有効な音声データベース上で訓練された音声感情認識モデルFSERを紹介する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、精神的および感情的な医療を改善するために使われる可能性がある。
論文 参考訳(メタデータ) (2021-09-15T05:03:24Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。