論文の概要: Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech
- arxiv url: http://arxiv.org/abs/2409.16203v1
- Date: Tue, 24 Sep 2024 16:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:17:23.283779
- Title: Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech
- Title(参考訳): 表情強調TTS:適応音声における顔表現と感情強度の組み合わせ
- Authors: Yunji Chu, Yunseob Shim, Unsang Park,
- Abstract要約: FEIM-TTSはゼロショット音声合成モデルである。
モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose FEIM-TTS, an innovative zero-shot text-to-speech (TTS) model that synthesizes emotionally expressive speech, aligned with facial images and modulated by emotion intensity. Leveraging deep learning, FEIM-TTS transcends traditional TTS systems by interpreting facial cues and adjusting to emotional nuances without dependence on labeled datasets. To address sparse audio-visual-emotional data, the model is trained using LRS3, CREMA-D, and MELD datasets, demonstrating its adaptability. FEIM-TTS's unique capability to produce high-quality, speaker-agnostic speech makes it suitable for creating adaptable voices for virtual characters. Moreover, FEIM-TTS significantly enhances accessibility for individuals with visual impairments or those who have trouble seeing. By integrating emotional nuances into TTS, our model enables dynamic and engaging auditory experiences for webcomics, allowing visually impaired users to enjoy these narratives more fully. Comprehensive evaluation evidences its proficiency in modulating emotion and intensity, advancing emotional speech synthesis and accessibility. Samples are available at: https://feim-tts.github.io/.
- Abstract(参考訳): 本研究では, 感情表現音声を合成し, 顔画像に適応し, 感情の強さによって変調された, 革新的なゼロショット音声合成モデルFEIM-TTSを提案する。
深層学習を活用して、FEIM-TTSは、ラベル付きデータセットに依存することなく、顔の手がかりを解釈し、感情的なニュアンスに適応することで、従来のTSシステムを超越する。
スパースオーディオ・ビジュアル・感情データに対処するため、モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示す。
FEIM-TTSが高品質で話者に依存しない音声を生成するユニークな能力は、仮想文字に適応可能な音声を作成するのに適している。
さらに、FEIM-TTSは視覚障害者や視力障害のある人へのアクセシビリティを著しく向上させる。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
包括的評価は、感情と強度を調節し、感情音声合成とアクセシビリティを推し進める能力を示す。
サンプルは、https://feim-tts.github.io/.comで入手できる。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文 参考訳(メタデータ) (2024-10-24T23:18:02Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。
本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。