論文の概要: Exploring emotional prototypes in a high dimensional TTS latent space
- arxiv url: http://arxiv.org/abs/2105.01891v1
- Date: Wed, 5 May 2021 06:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:38:40.002080
- Title: Exploring emotional prototypes in a high dimensional TTS latent space
- Title(参考訳): 高次元TS潜時空間における感情的プロトタイプの探索
- Authors: Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison,
Pauline Larrouy-Maestri, Elisabeth Andr\'e, Nori Jacoby
- Abstract要約: 訓練されたGSTタコトロンモデルを用いて韻律潜在空間を探索し、感情的韻律のプロトタイプを探索する。
モデルの潜在空間の特定の領域が特定の感情に確実に関連していることを示す。
- 参考スコア(独自算出の注目度): 3.4404376509754506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent TTS systems are able to generate prosodically varied and realistic
speech. However, it is unclear how this prosodic variation contributes to the
perception of speakers' emotional states. Here we use the recent psychological
paradigm 'Gibbs Sampling with People' to search the prosodic latent space in a
trained GST Tacotron model to explore prototypes of emotional prosody.
Participants are recruited online and collectively manipulate the latent space
of the generative speech model in a sequentially adaptive way so that the
stimulus presented to one group of participants is determined by the response
of the previous groups. We demonstrate that (1) particular regions of the
model's latent space are reliably associated with particular emotions, (2) the
resulting emotional prototypes are well-recognized by a separate group of human
raters, and (3) these emotional prototypes can be effectively transferred to
new sentences. Collectively, these experiments demonstrate a novel approach to
the understanding of emotional speech by providing a tool to explore the
relation between the latent space of generative models and human semantics.
- Abstract(参考訳): 最近のTSシステムは、韻律的に変化し、現実的な音声を生成することができる。
しかし、この韻律的変化が話者の感情状態の知覚にどのように寄与するかは不明である。
本稿では,最近の心理学的パラダイムであるgibbs sampling with peopleを用いて,訓練されたgstタコトロンモデルにおける韻律的潜在空間を探索し,感情的韻律のプロトタイプを探索する。
参加者をオンラインで募集し、生成音声モデルの潜伏空間を逐次適応的に操作することにより、1つのグループに提示された刺激が前のグループの反応によって決定される。
本研究では,(1)モデルの潜伏空間の特定の領域が,特定の感情に確実に関連していること,(2)結果の感情的プロトタイプは,別個のレイパー群によって認識され,(3)これらの感情的プロトタイプは,新しい文章に効果的に転送可能であることを実証する。
これらの実験は、生成モデルの潜在空間と人間の意味論との関係を探求するツールを提供することにより、感情音声を理解するための新しいアプローチを示す。
関連論文リスト
- Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Think Twice: A Human-like Two-stage Conversational Agent for Emotional
Response Generation [16.831275847153606]
感情対話生成のための2段階対話エージェントを提案する。
まず,感情アノテートされた対話コーパスを使わずに訓練された対話モデルを用いて,文脈意味に合致するプロトタイプ応答を生成する。
第二に、第一段階のプロトタイプは共感仮説で制御可能な感情精錬器によって修正される。
論文 参考訳(メタデータ) (2023-01-12T10:03:56Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - Bridging the prosody GAP: Genetic Algorithm with People to efficiently
sample emotional prosody [1.2891210250935146]
GAP(Genetic Algorithm with People)は、人間の意思決定と生産を遺伝的アルゴリズムに統合する。
我々は,GAPが感情音声空間から効率的にサンプリングし,幅広い感情を捕捉できることを実証した。
GAPは言語に依存しず、大規模なクラウドソーシングをサポートしており、将来の大規模クロスカルチャー研究をサポートすることができる。
論文 参考訳(メタデータ) (2022-05-10T11:45:15Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - EmoCaps: Emotion Capsule based Model for Conversational Emotion
Recognition [2.359022633145476]
会話中の感情認識(ERC)は、話者の状態を分析し、会話中の感情を識別することを目的としている。
ERCにおける最近の研究は文脈モデリングに焦点を当てているが、文脈的感情傾向の表現は無視されている。
Emoformerと呼ばれる新しい構造は、異なるモーダルから複数のモーダル感情ベクトルを抽出し、それらを文ベクトルで融合して感情カプセルにする。
論文 参考訳(メタデータ) (2022-03-25T08:42:57Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。