論文の概要: Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis
- arxiv url: http://arxiv.org/abs/2410.19199v1
- Date: Thu, 24 Oct 2024 23:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:55.375587
- Title: Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis
- Title(参考訳): ソーシャルプラットフォームをアクセシブルにする:統合テキスト分析による感情認識音声生成
- Authors: Suparna De, Ionut Bostan, Nishanth Sastry,
- Abstract要約: 本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
- 参考スコア(独自算出の注目度): 3.8251125989631674
- License:
- Abstract: Recent studies have outlined the accessibility challenges faced by blind or visually impaired, and less-literate people, in interacting with social networks, in-spite of facilitating technologies such as monotone text-to-speech (TTS) screen readers and audio narration of visual elements such as emojis. Emotional speech generation traditionally relies on human input of the expected emotion together with the text to synthesise, with additional challenges around data simplification (causing information loss) and duration inaccuracy, leading to lack of expressive emotional rendering. In real-life communications, the duration of phonemes can vary since the same sentence might be spoken in a variety of ways depending on the speakers' emotional states or accents (referred to as the one-to-many problem of text to speech generation). As a result, an advanced voice synthesis system is required to account for this unpredictability. We propose an end-to-end context-aware Text-to-Speech (TTS) synthesis system that derives the conveyed emotion from text input and synthesises audio that focuses on emotions and speaker features for natural and expressive speech, integrating advanced natural language processing (NLP) and speech synthesis techniques for real-time applications. Our system also showcases competitive inference time performance when benchmarked against the state-of-the-art TTS models, making it suitable for real-time accessibility applications.
- Abstract(参考訳): 近年の研究では、ソーシャルネットワークとの対話において視覚障害者や視覚障害者が直面するアクセシビリティの課題を概説し、モノトーン・テキスト・トゥ・スポーチ(TTS)スクリーンリーダーや絵文字などの視覚要素の音声ナレーションなど、テクノロジーの促進に力を入れている。
感情的な音声生成は、伝統的に、予想される感情の人間の入力と合成のためのテキストに依存しており、データの単純化(情報損失の低減)と持続的不正確性に関するさらなる課題が、表現力のある感情のレンダリングの欠如につながっている。
実生活コミュニケーションでは、同じ文が話者の感情状態やアクセントによって様々な方法で話されるため、音素の持続時間が異なる。
その結果,この予測不可能性を考慮するためには,高度な音声合成システムが必要である。
テキスト入力と音声合成から伝達された感情を導出し、自然言語と表現音声の感情や話者の特徴に着目した音声を合成し、高度自然言語処理(NLP)と音声合成技術をリアルタイムアプリケーションに組み込む、エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
また,リアルタイムアクセシビリティ・アプリケーションに適合するように,最先端のTSモデルに対してベンチマークを行った場合の競合予測時間性能も示す。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。
モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文 参考訳(メタデータ) (2024-09-24T16:01:12Z) - Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。
この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文 参考訳(メタデータ) (2024-01-25T02:13:45Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。