論文の概要: Time out of Mind: Generating Emotionally Conditioned Rate of Speech
- arxiv url: http://arxiv.org/abs/2301.12331v1
- Date: Sun, 29 Jan 2023 02:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:42:50.111122
- Title: Time out of Mind: Generating Emotionally Conditioned Rate of Speech
- Title(参考訳): タイム・オブ・マインド:感情条件付き発話率の生成
- Authors: Navjot Kaur, Paige Tuttosi
- Abstract要約: 我々は、感情を条件としたGANを訓練し、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は中性音声に対して相対的であり、より表現力のある音声を生成するために、音声マークアップ言語(STTS)からテキスト・トゥ・スピーチ(STTS)システムへ提供される。
我々は,中性音声に対する客観的尺度の精度向上と,アウトオブボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice synthesis has seen significant improvements in the past decade
resulting in highly intelligible voices. Further investigations have resulted
in models that can produce variable speech, including conditional emotional
expression. The problem lies, however, in a focus on phrase level modifications
and prosodic vocal features. Using the CREMA-D dataset we have trained a GAN
conditioned on emotion to generate worth lengths for a given input text. These
word lengths are relative to neutral speech and can be provided, through speech
synthesis markup language (SSML) to a text to speech (TTS) system to generate
more expressive speech. We were able to achieve better performances on
objective measures for neutral speech, and better time alignment for happy
speech when compared to an out of box model.
- Abstract(参考訳): 音声合成は、過去10年間に大幅に改善され、非常に知的な声になった。
さらなる調査により、条件付き感情表現を含む可変発話を生成できるモデルが得られた。
しかし問題は、フレーズレベルの修正と韻律的な発声機能に焦点を当てることにある。
CREMA-Dデータセットを使用して、感情を条件としたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は中性音声に対して相対的であり、音声合成マークアップ言語(SSML)とテキスト音声(TTS)システムを介してより表現力のある音声を生成することができる。
我々は,中性音声に対する客観的尺度の精度向上と,アウトオブボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
関連論文リスト
- Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。