論文の概要: Exploring emotional prototypes in a high dimensional TTS latent space
- arxiv url: http://arxiv.org/abs/2105.01891v1
- Date: Wed, 5 May 2021 06:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:38:40.002080
- Title: Exploring emotional prototypes in a high dimensional TTS latent space
- Title(参考訳): 高次元TS潜時空間における感情的プロトタイプの探索
- Authors: Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison,
Pauline Larrouy-Maestri, Elisabeth Andr\'e, Nori Jacoby
- Abstract要約: 訓練されたGSTタコトロンモデルを用いて韻律潜在空間を探索し、感情的韻律のプロトタイプを探索する。
モデルの潜在空間の特定の領域が特定の感情に確実に関連していることを示す。
- 参考スコア(独自算出の注目度): 3.4404376509754506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent TTS systems are able to generate prosodically varied and realistic
speech. However, it is unclear how this prosodic variation contributes to the
perception of speakers' emotional states. Here we use the recent psychological
paradigm 'Gibbs Sampling with People' to search the prosodic latent space in a
trained GST Tacotron model to explore prototypes of emotional prosody.
Participants are recruited online and collectively manipulate the latent space
of the generative speech model in a sequentially adaptive way so that the
stimulus presented to one group of participants is determined by the response
of the previous groups. We demonstrate that (1) particular regions of the
model's latent space are reliably associated with particular emotions, (2) the
resulting emotional prototypes are well-recognized by a separate group of human
raters, and (3) these emotional prototypes can be effectively transferred to
new sentences. Collectively, these experiments demonstrate a novel approach to
the understanding of emotional speech by providing a tool to explore the
relation between the latent space of generative models and human semantics.
- Abstract(参考訳): 最近のTSシステムは、韻律的に変化し、現実的な音声を生成することができる。
しかし、この韻律的変化が話者の感情状態の知覚にどのように寄与するかは不明である。
本稿では,最近の心理学的パラダイムであるgibbs sampling with peopleを用いて,訓練されたgstタコトロンモデルにおける韻律的潜在空間を探索し,感情的韻律のプロトタイプを探索する。
参加者をオンラインで募集し、生成音声モデルの潜伏空間を逐次適応的に操作することにより、1つのグループに提示された刺激が前のグループの反応によって決定される。
本研究では,(1)モデルの潜伏空間の特定の領域が,特定の感情に確実に関連していること,(2)結果の感情的プロトタイプは,別個のレイパー群によって認識され,(3)これらの感情的プロトタイプは,新しい文章に効果的に転送可能であることを実証する。
これらの実験は、生成モデルの潜在空間と人間の意味論との関係を探求するツールを提供することにより、感情音声を理解するための新しいアプローチを示す。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Think Twice: A Human-like Two-stage Conversational Agent for Emotional Response Generation [16.659457455269127]
感情対話生成のための2段階対話エージェントを提案する。
まず,感情アノテートされた対話コーパスを使わずに訓練された対話モデルを用いて,文脈意味に合致するプロトタイプ応答を生成する。
第二に、第一段階のプロトタイプは共感仮説で制御可能な感情精錬器によって修正される。
論文 参考訳(メタデータ) (2023-01-12T10:03:56Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - Bridging the prosody GAP: Genetic Algorithm with People to efficiently
sample emotional prosody [1.2891210250935146]
GAP(Genetic Algorithm with People)は、人間の意思決定と生産を遺伝的アルゴリズムに統合する。
我々は,GAPが感情音声空間から効率的にサンプリングし,幅広い感情を捕捉できることを実証した。
GAPは言語に依存しず、大規模なクラウドソーシングをサポートしており、将来の大規模クロスカルチャー研究をサポートすることができる。
論文 参考訳(メタデータ) (2022-05-10T11:45:15Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。