論文の概要: Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset
- arxiv url: http://arxiv.org/abs/2505.20341v1
- Date: Sat, 24 May 2025 16:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.187984
- Title: Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset
- Title(参考訳): EmoCorrector と ECD-TSE データセットの導入
- Authors: Rui Liu, Pu Gao, Jiatian Xi, Berrak Sisman, Carlos Busso, Haizhou Li,
- Abstract要約: EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。
編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。
EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
- 参考スコア(独自算出の注目度): 52.95197015472105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based speech editing (TSE) modifies speech using only text, eliminating re-recording. However, existing TSE methods, mainly focus on the content accuracy and acoustic consistency of synthetic speech segments, and often overlook the emotional shifts or inconsistency issues introduced by text changes. To address this issue, we propose EmoCorrector, a novel post-correction scheme for TSE. EmoCorrector leverages Retrieval-Augmented Generation (RAG) by extracting the edited text's emotional features, retrieving speech samples with matching emotions, and synthesizing speech that aligns with the desired emotion while preserving the speaker's identity and quality. To support the training and evaluation of emotional consistency modeling in TSE, we pioneer the benchmarking Emotion Correction Dataset for TSE (ECD-TSE). The prominent aspect of ECD-TSE is its inclusion of $<$text, speech$>$ paired data featuring diverse text variations and a range of emotional expressions. Subjective and objective experiments and comprehensive analysis on ECD-TSE confirm that EmoCorrector significantly enhances the expression of intended emotion while addressing emotion inconsistency limitations in current TSE methods. Code and audio examples are available at https://github.com/AI-S2-Lab/EmoCorrector.
- Abstract(参考訳): テキストベースの音声編集(TSE)は、テキストのみを使用して音声を修正し、再録音をなくす。
しかし、既存のTSE手法は、主に合成音声セグメントの内容精度と音響的整合性に注目し、しばしばテキストの変更によって生じる感情の変化や不整合の問題を見落としている。
この問題に対処するために,TSEの新しいポストコレクタであるEmoCorrectorを提案する。
EmoCorrectorは、編集されたテキストの感情的特徴を抽出し、一致する感情で音声サンプルを検索し、話者のアイデンティティと品質を保ちながら、所望の感情と整合する音声を合成する。
TSEにおける感情整合性モデリングのトレーニングと評価を支援するため,TSE(ECD-TSE)のための感情補正データセットのベンチマークを考案した。
ECD-TSEの顕著な側面は、多様なテキストのバリエーションと様々な感情表現を特徴とする$<$text, speech$>$ paired dataを含むことである。
EmoCorrectorは、現在のTSE法における感情の不整合性に対処しながら、意図した感情の表現を著しく向上させる。
コードとオーディオの例はhttps://github.com/AI-S2-Lab/EmoCorrector.comで公開されている。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。