Fugu-MT 論文翻訳(概要): Continuous Emotional Intensity Controllable Speech Synthesis using Semi-supervised Learning

論文の概要: Continuous Emotional Intensity Controllable Speech Synthesis using Semi-supervised Learning

arxiv url: http://arxiv.org/abs/2211.06160v1
Date: Fri, 11 Nov 2022 12:28:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 17:20:52.382071
Title: Continuous Emotional Intensity Controllable Speech Synthesis using Semi-supervised Learning
Title（参考訳）: 半教師付き学習による連続的感情インテンシティ制御音声合成
Authors: Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee
Abstract要約: 半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。実験の結果,提案手法は制御性と自然性に優れていた。
参考スコア（独自算出の注目度）: 16.524515747017787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid development of the speech synthesis system, recent text-to-speech models have reached the level of generating natural speech similar to what humans say. But there still have limitations in terms of expressiveness. In particular, the existing emotional speech synthesis models have shown controllability using interpolated features with scaling parameters in emotional latent space. However, the emotional latent space generated from the existing models is difficult to control the continuous emotional intensity because of the entanglement of features like emotions, speakers, etc. In this paper, we propose a novel method to control the continuous intensity of emotions using semi-supervised learning. The model learns emotions of intermediate intensity using pseudo-labels generated from phoneme-level sequences of speech information. An embedding space built from the proposed model satisfies the uniform grid geometry with an emotional basis. In addition, to improve the naturalness of intermediate emotional speech, a discriminator is applied to the generation of low-level elements like duration, pitch and energy. The experimental results showed that the proposed method was superior in controllability and naturalness. The synthesized speech samples are available at https://tinyurl.com/34zaehh2
Abstract（参考訳）: 音声合成システムの急速な発展に伴い、近年の音声合成モデルは、人間が言うような自然な音声を生成するレベルに達している。しかし、表現力の面ではまだ限界がある。特に、既存の感情音声合成モデルは、感情的潜在空間におけるスケーリングパラメータを伴う補間特徴を用いた制御可能性を示している。しかし,既存のモデルから生じる情緒的潜伏空間は,感情や話者などの特徴が絡み合っているため,連続的な情緒的強度を制御することは困難である。本稿では,半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。モデルは音声情報の音素レベルシーケンスから生成された擬似ラベルを用いて中間強度の感情を学習する。提案モデルから構築した埋め込み空間は、一様格子形状を感情的に満足する。さらに、中間感情音声の自然性を改善するために、時間、ピッチ、エネルギーなどの低レベル要素の生成に判別器を適用した。実験の結果,提案手法は制御性と自然性に優れていた。合成音声サンプルはhttps://tinyurl.com/34zaeh2で入手できる。

関連論文リスト

A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。 IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。 HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:07:30Z)
EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文参考訳（メタデータ） (2025-08-20T02:16:52Z)
UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [34.89118596727314]
制御可能な感情的TTSのための離散的感情と次元的感情を統一したニューラル言語モデルであるUDDETTSを提案する。このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。 UDDETTSはADV空間の3次元に沿って線形感情制御を統一し、より優れたエンドツーエンドの感情音声合成能力を示す。
論文参考訳（メタデータ） (2025-05-15T12:57:19Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文参考訳（メタデータ） (2025-01-10T12:10:30Z)
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文参考訳（メタデータ） (2024-11-04T21:33:56Z)
Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。提案手法の有効性を実験・解析により検証した。
論文参考訳（メタデータ） (2024-09-29T01:02:01Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。 TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文参考訳（メタデータ） (2024-06-12T01:40:29Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文参考訳（メタデータ） (2023-08-16T06:28:29Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文参考訳（メタデータ） (2021-04-20T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。