論文の概要: STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly
Voice Agent
- arxiv url: http://arxiv.org/abs/2203.14757v1
- Date: Mon, 28 Mar 2022 13:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:40:17.968956
- Title: STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly
Voice Agent
- Title(参考訳): 日本語共感対話音声のコーパス : フレンドリーな音声エージェントに向けて
- Authors: Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana,
Hiroshi Saruwatari
- Abstract要約: 本稿では,親しみやすい音声エージェントを開発するための音声コーパスSTUDIESを提案する。
我々はSTUDIESコーパスを設計し、対話者の感情に共感を持って話す話者を含むようにした。
その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 41.46571444928867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present STUDIES, a new speech corpus for developing a voice agent that can
speak in a friendly manner. Humans naturally control their speech prosody to
empathize with each other. By incorporating this "empathetic dialogue" behavior
into a spoken dialogue system, we can develop a voice agent that can respond to
a user more naturally. We designed the STUDIES corpus to include a speaker who
speaks with empathy for the interlocutor's emotion explicitly. We describe our
methodology to construct an empathetic dialogue speech corpus and report the
analysis results of the STUDIES corpus. We conducted a text-to-speech
experiment to initially investigate how we can develop more natural voice agent
that can tune its speaking style corresponding to the interlocutor's emotion.
The results show that the use of interlocutor's emotion label and
conversational context embedding can produce speech with the same degree of
naturalness as that synthesized by using the agent's emotion label. Our project
page of the STUDIES corpus is http://sython.org/Corpus/STUDIES.
- Abstract(参考訳): 本稿では,親しみやすい話し方が可能な音声エージェントを開発するための新しい音声コーパスについて述べる。
人間は自然に言葉の韻律を制御し、お互いに共感する。
この「共感的対話」動作を音声対話システムに組み込むことで、ユーザに対してより自然に反応できる音声エージェントを開発することができる。
我々は,対話者の感情を明示的に共感して話す話者を含む学習コーパスを設計した。
本稿では,情緒的対話音声コーパスを構築し,STUDIESコーパスの分析結果を報告する。
我々はまず,対話者の感情に応じた発話スタイルを調整できる,より自然な音声エージェントの開発方法について,テキスト音声実験を行った。
その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。
STUDIESコーパスのプロジェクトページはhttp://sython.org/Corpus/STUDIESです。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Towards human-like spoken dialogue generation between AI agents from
written dialogue [8.4989907582951]
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
論文 参考訳(メタデータ) (2023-10-02T11:03:20Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling
and Attentive Listening in Customer Center [41.46571444928867]
本稿では,顧客センターでの通話を共感的音声対話の新たな領域とみなす日本語コーパスCALLSを紹介する。
既存のSTUDIESコーパスは、教師と学校の学生の間の共感的な対話のみをカバーしている。
情緒的対話音声合成(EDSS)の適用範囲を拡大するため,STUDIES教師と同じ女性話者を含むコーパスを設計した。
論文 参考訳(メタデータ) (2023-05-23T06:04:50Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Think Twice: A Human-like Two-stage Conversational Agent for Emotional Response Generation [16.659457455269127]
感情対話生成のための2段階対話エージェントを提案する。
まず,感情アノテートされた対話コーパスを使わずに訓練された対話モデルを用いて,文脈意味に合致するプロトタイプ応答を生成する。
第二に、第一段階のプロトタイプは共感仮説で制御可能な感情精錬器によって修正される。
論文 参考訳(メタデータ) (2023-01-12T10:03:56Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。