Fugu-MT 論文翻訳(概要): Exploring speech style spaces with language models: Emotional TTS without emotion labels

論文の概要: Exploring speech style spaces with language models: Emotional TTS without emotion labels

arxiv url: http://arxiv.org/abs/2405.11413v1
Date: Sat, 18 May 2024 23:21:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 17:49:33.796050
Title: Exploring speech style spaces with language models: Emotional TTS without emotion labels
Title（参考訳）: 言語モデルを用いた音声スタイル空間の探索:感情ラベルのない感情的TS
Authors: Shreeram Suresh Chandra, Zongyang Du, Berrak Sisman,
Abstract要約: 本研究では,感情ラベルやテキストプロンプトを必要とせず,テキスト認識を利用して感情的スタイルを習得する手法を提案する。 E-TTSの2段階フレームワークであるTEMOTTSについて述べる。
参考スコア（独自算出の注目度）: 8.288443063900825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many frameworks for emotional text-to-speech (E-TTS) rely on human-annotated emotion labels that are often inaccurate and difficult to obtain. Learning emotional prosody implicitly presents a tough challenge due to the subjective nature of emotions. In this study, we propose a novel approach that leverages text awareness to acquire emotional styles without the need for explicit emotion labels or text prompts. We present TEMOTTS, a two-stage framework for E-TTS that is trained without emotion labels and is capable of inference without auxiliary inputs. Our proposed method performs knowledge transfer between the linguistic space learned by BERT and the emotional style space constructed by global style tokens. Our experimental results demonstrate the effectiveness of our proposed framework, showcasing improvements in emotional accuracy and naturalness. This is one of the first studies to leverage the emotional correlation between spoken content and expressive delivery for emotional TTS.
Abstract（参考訳）: 感情的テキスト合成(E-TTS)のための多くのフレームワークは、しばしば不正確で入手が難しい人間の注釈付き感情ラベルに依存している。感情的韻律の学習は、感情の主観的な性質のために、暗黙的に難しい課題を提示する。本研究では,感情ラベルやテキストプロンプトを必要とせず,テキスト認識を利用して感情的スタイルを習得する手法を提案する。 E-TTSの2段階フレームワークであるTEMOTTSについて述べる。提案手法は,BERTが学習した言語空間とグローバルなスタイルトークンによって構築された感情的スタイル空間との間の知識伝達を行う。提案手法の有効性を実証し,感情的正確性および自然性の改善を実証した。これは、音声コンテンツと感情的TSに対する表現的配信の感情的相関を利用した最初の研究の1つである。

関連論文リスト

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文参考訳（メタデータ） (2024-11-04T21:33:56Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。 TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文参考訳（メタデータ） (2024-06-12T01:40:29Z)
UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。 EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。 EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文参考訳（メタデータ） (2024-04-29T03:19:39Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文参考訳（メタデータ） (2023-08-16T06:28:29Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Uncovering the Limits of Text-based Emotion Detection [0.0]
感情分類のための最大のコーパスは、GoEmotions、読者によってラベル付けされた58Kメッセージ、Vent、ライターがラベル付けされた33Mメッセージである。我々はベンチマークを設計し、BERT上に2つのシンプルな新しいモデルを含むいくつかの特徴空間と学習アルゴリズムを評価する。
論文参考訳（メタデータ） (2021-09-04T16:40:06Z)
A Circular-Structured Representation for Visual Emotion Distribution Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。具体的には、まず感情圏を構築し、その内にある感情状態を統一する。提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文参考訳（メタデータ） (2021-06-23T14:53:27Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。