論文の概要: Speech Synthesis with Mixed Emotions
- arxiv url: http://arxiv.org/abs/2208.05890v1
- Date: Thu, 11 Aug 2022 15:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 12:48:32.937455
- Title: Speech Synthesis with Mixed Emotions
- Title(参考訳): 混合感情を用いた音声合成
- Authors: Kun Zhou, Berrak Sisman, Rajib Rana, B.W.Schuller, Haizhou Li
- Abstract要約: 異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
- 参考スコア(独自算出の注目度): 77.05097999561298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotional speech synthesis aims to synthesize human voices with various
emotional effects. The current studies are mostly focused on imitating an
averaged style belonging to a specific emotion type. In this paper, we seek to
generate speech with a mixture of emotions at run-time. We propose a novel
formulation that measures the relative difference between the speech samples of
different emotions. We then incorporate our formulation into a
sequence-to-sequence emotional text-to-speech framework. During the training,
the framework does not only explicitly characterize emotion styles, but also
explores the ordinal nature of emotions by quantifying the differences with
other emotions. At run-time, we control the model to produce the desired
emotion mixture by manually defining an emotion attribute vector. The objective
and subjective evaluations have validated the effectiveness of the proposed
framework. To our best knowledge, this research is the first study on
modelling, synthesizing and evaluating mixed emotions in speech.
- Abstract(参考訳): 感情音声合成は、人間の声を様々な感情効果で合成することを目的としている。
現在の研究は主に、特定の感情タイプに属する平均的なスタイルを模倣することに焦点を当てている。
本稿では,実行時の感情の混合による音声生成を提案する。
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化をシーケンスからシーケンスまでの感情的テキスト音声フレームワークに組み込む。
トレーニング中、フレームワークは感情のスタイルを明示的に特徴付けるだけでなく、他の感情との違いを定量化することで感情の順序的性質を探求する。
実行時には,感情属性ベクトルを手動で定義して,望ましい感情混合を生成するようにモデルを制御する。
提案手法の有効性を客観的および主観的評価により検証した。
本研究は,音声における混合感情のモデル化,合成,評価に関する最初の研究である。
関連論文リスト
- Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition [12.605375307094416]
構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト・音声設計を提案する。
提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。
論文 参考訳(メタデータ) (2024-02-22T13:15:49Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Where are We in Event-centric Emotion Analysis? Bridging Emotion Role
Labeling and Appraisal-based Approaches [10.736626320566707]
テキストにおける感情分析という用語は、様々な自然言語処理タスクを仮定する。
感情と出来事は2つの方法で関連していると我々は主張する。
我々は,NLPモデルに心理的評価理論を組み込んで事象を解釈する方法について議論する。
論文 参考訳(メタデータ) (2023-09-05T09:56:29Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Emotion Recognition based on Psychological Components in Guided
Narratives for Emotion Regulation [0.0]
本稿では,感情制御のためのアンケートを用いて収集した感情的感情の新たなコーパスを紹介する。
本研究では,コンポーネントの相互作用とその感情分類への影響について,機械学習手法と事前学習言語モデルを用いて検討する。
論文 参考訳(メタデータ) (2023-05-15T12:06:31Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Emotion Recognition under Consideration of the Emotion Component Process
Model [9.595357496779394]
我々はScherer (2005) による感情成分プロセスモデル (CPM) を用いて感情コミュニケーションを説明する。
CPMは、感情は、出来事、すなわち主観的感情、認知的評価、表現、生理的身体反応、動機的行動傾向に対する様々なサブコンポーネントの協調過程であると述べている。
Twitter上での感情は、主に出来事の説明や主観的な感情の報告によって表現されているのに対し、文献では、著者はキャラクターが何をしているかを記述し、解釈を読者に任せることを好む。
論文 参考訳(メタデータ) (2021-07-27T15:53:25Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。