論文の概要: Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation
- arxiv url: http://arxiv.org/abs/2404.01339v1
- Date: Sun, 31 Mar 2024 00:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:06:49.600342
- Title: Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation
- Title(参考訳): ゼロショット感情と拡散生成によるヒューマン音声合成
- Authors: Rohan Chaudhury, Mihir Godbole, Aakash Garg, Jinsil Hwaryoung Seo,
- Abstract要約: 現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
- 参考スコア(独自算出の注目度): 0.6964027823688135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary conversational systems often present a significant limitation: their responses lack the emotional depth and disfluent characteristic of human interactions. This absence becomes particularly noticeable when users seek more personalized and empathetic interactions. Consequently, this makes them seem mechanical and less relatable to human users. Recognizing this gap, we embarked on a journey to humanize machine communication, to ensure AI systems not only comprehend but also resonate. To address this shortcoming, we have designed an innovative speech synthesis pipeline. Within this framework, a cutting-edge language model introduces both human-like emotion and disfluencies in a zero-shot setting. These intricacies are seamlessly integrated into the generated text by the language model during text generation, allowing the system to mirror human speech patterns better, promoting more intuitive and natural user interactions. These generated elements are then adeptly transformed into corresponding speech patterns and emotive sounds using a rule-based approach during the text-to-speech phase. Based on our experiments, our novel system produces synthesized speech that's almost indistinguishable from genuine human communication, making each interaction feel more personal and authentic.
- Abstract(参考訳): 現代の会話システムでは、その反応は人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
ユーザーがよりパーソナライズされ共感的な対話を求めると、この欠如は特に顕著になる。
その結果、機械的であり、人間ユーザーにとって相対性が低いように思える。
このギャップを認識して、私たちは機械通信を人間化し、AIシステムが理解されるだけでなく、共鳴することを保証する旅を始めました。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
これらの複雑さは、テキスト生成中に言語モデルによって生成されたテキストにシームレスに統合され、システムは人間の音声パターンをより良くミラーし、より直感的で自然なユーザーインタラクションを促進する。
これらの生成した要素は、テキスト音声フェーズ中に規則に基づくアプローチを用いて、対応する音声パターンと動機音に順応的に変換される。
我々の実験に基づいて、我々の新しいシステムは、本物の人間のコミュニケーションとほとんど区別がつかない合成音声を生成し、それぞれのインタラクションをよりパーソナルで真正に感じさせる。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation [7.675340768192281]
39名の参加者を対象とした音声理解研究を行った。
実験の結果,音質のよい空間は,知性やユーザ体験と正の相関関係があることが示唆された。
我々は,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2024-05-15T21:28:55Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Whither the Priors for (Vocal) Interactivity? [6.709659274527638]
音声に基づくコミュニケーションは、人間とロボットが対話する最も自然な方法の1つとしてしばしば引用される。
それにもかかわらず、結果として生じる相互作用は自然に他ならない」。
このようなコミュニケーションの失敗は、より深い誤認の兆候である、とここでは主張されている。
論文 参考訳(メタデータ) (2022-03-16T12:06:46Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z) - Generating Emotionally Aligned Responses in Dialogues using Affect
Control Theory [15.848210524718219]
感情制御理論(Affect Control Theory、ACT)は、人間と人間の相互作用に対する感情の社会的・数学的モデルである。
本研究では、ACTが感情認識型神経会話エージェントの開発にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2020-03-07T19:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。