Fugu-MT 論文翻訳(概要): Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition

論文の概要: Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition

arxiv url: http://arxiv.org/abs/2402.14523v2
Date: Thu, 27 Jun 2024 15:14:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 19:37:12.773066
Title: Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition
Title（参考訳）: Daisy-TTS:韻律埋め込み分解による感情スペクトルのシミュレーション
Authors: Rendi Chevi, Alham Fikri Aji,
Abstract要約: 構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト・音声設計を提案する。提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。
参考スコア（独自算出の注目度）: 12.605375307094416
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We often verbally express emotions in a multifaceted manner, they may vary in their intensities and may be expressed not just as a single but as a mixture of emotions. This wide spectrum of emotions is well-studied in the structural model of emotions, which represents variety of emotions as derivative products of primary emotions with varying degrees of intensity. In this paper, we propose an emotional text-to-speech design to simulate a wider spectrum of emotions grounded on the structural model. Our proposed design, Daisy-TTS, incorporates a prosody encoder to learn emotionally-separable prosody embedding as a proxy for emotion. This emotion representation allows the model to simulate: (1) Primary emotions, as learned from the training samples, (2) Secondary emotions, as a mixture of primary emotions, (3) Intensity-level, by scaling the emotion embedding, and (4) Emotions polarity, by negating the emotion embedding. Through a series of perceptual evaluations, Daisy-TTS demonstrated overall higher emotional speech naturalness and emotion perceiveability compared to the baseline.
Abstract（参考訳）: 私たちはしばしば多面的に感情を表現するが、その強さは様々であり、単独ではなく、感情の混合として表現されることもある。この広い範囲の感情は感情の構造モデルにおいてよく研究されており、様々な感情を様々な強度の一次感情の派生生成物として表している。本稿では,構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト音声設計を提案する。提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。この感情表現は,(1)訓練サンプルから学習した一次感情,(2)一次感情の混合による二次感情,(3)感情の埋め込みを拡大するインテンシティレベル,(4)感情の埋め込みを否定する感情の極性など,モデルをシミュレートすることができる。一連の知覚的評価を通じて,Daisy-TTSはベースラインに比べて感情の自然さと感情の知覚性が全体的に高いことを示した。

関連論文リスト

UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [34.89118596727314]
制御可能な感情的TTSのための離散的感情と次元的感情を統一したニューラル言語モデルであるUDDETTSを提案する。このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。 UDDETTSはADV空間の3次元に沿って線形感情制御を統一し、より優れたエンドツーエンドの感情音声合成能力を示す。
論文参考訳（メタデータ） (2025-05-15T12:57:19Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文参考訳（メタデータ） (2024-06-12T01:40:29Z)
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation [42.29118614670941]
普遍的な音声感情表現モデルである感情2vecを提案する。感情2vecは自己監督型オンライン蒸留を通じてラベルなしの感情データに基づいて事前訓練される。最先端の訓練済みユニバーサルモデルや感情スペシャリストモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-23T07:46:55Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Emotion Recognition under Consideration of the Emotion Component Process Model [9.595357496779394]
我々はScherer (2005) による感情成分プロセスモデル (CPM) を用いて感情コミュニケーションを説明する。 CPMは、感情は、出来事、すなわち主観的感情、認知的評価、表現、生理的身体反応、動機的行動傾向に対する様々なサブコンポーネントの協調過程であると述べている。 Twitter上での感情は、主に出来事の説明や主観的な感情の報告によって表現されているのに対し、文献では、著者はキャラクターが何をしているかを記述し、解釈を読者に任せることを好む。
論文参考訳（メタデータ） (2021-07-27T15:53:25Z)
A Circular-Structured Representation for Visual Emotion Distribution Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。具体的には、まず感情圏を構築し、その内にある感情状態を統一する。提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文参考訳（メタデータ） (2021-06-23T14:53:27Z)
Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文参考訳（メタデータ） (2021-04-20T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。