論文の概要: CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling
and Attentive Listening in Customer Center
- arxiv url: http://arxiv.org/abs/2305.13713v1
- Date: Tue, 23 May 2023 06:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:44:30.864345
- Title: CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling
and Attentive Listening in Customer Center
- Title(参考訳): CALLS:顧客センターにおける苦情処理と注意聴取の日本語共感対話音声コーパス
- Authors: Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana,
Hiroshi Saruwatari
- Abstract要約: 本稿では,顧客センターでの通話を共感的音声対話の新たな領域とみなす日本語コーパスCALLSを紹介する。
既存のSTUDIESコーパスは、教師と学校の学生の間の共感的な対話のみをカバーしている。
情緒的対話音声合成(EDSS)の適用範囲を拡大するため,STUDIES教師と同じ女性話者を含むコーパスを設計した。
- 参考スコア(独自算出の注目度): 41.46571444928867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present CALLS, a Japanese speech corpus that considers phone calls in a
customer center as a new domain of empathetic spoken dialogue. The existing
STUDIES corpus covers only empathetic dialogue between a teacher and student in
a school. To extend the application range of empathetic dialogue speech
synthesis (EDSS), we designed our corpus to include the same female speaker as
the STUDIES teacher, acting as an operator in simulated phone calls. We
describe a corpus construction methodology and analyze the recorded speech. We
also conduct EDSS experiments using the CALLS and STUDIES corpora to
investigate the effect of domain differences. The results show that mixing the
two corpora during training causes biased improvements in the quality of
synthetic speech due to the different degrees of expressiveness. Our project
page of the corpus is http://sython.org/Corpus/STUDIES-2.
- Abstract(参考訳): 本稿では,顧客センターでの通話を共感的音声対話の新たな領域とみなす日本語コーパスCALLSを紹介する。
既存のSTUDIESコーパスは、教師と学校の学生の間の共感的な対話のみをカバーしている。
情緒的対話音声合成(EDSS)の適用範囲を拡大するため,STUDIES教師と同じ女性話者を含むコーパスを設計した。
コーパス構築手法を記述し、録音された音声を解析する。
また,CALLSとSTUDIESコーパスを用いてEDSS実験を行い,領域差の影響について検討した。
その結果,2つのコーパスの混合は,表現度の違いによる合成音声の品質向上のバイアスとなることがわかった。
コーパスのプロジェクトページはhttp://sython.org/Corpus/STUDIES-2。
関連論文リスト
- ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly
Voice Agent [41.46571444928867]
本稿では,親しみやすい音声エージェントを開発するための音声コーパスSTUDIESを提案する。
我々はSTUDIESコーパスを設計し、対話者の感情に共感を持って話す話者を含むようにした。
その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-28T13:49:59Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Construction of a Large-scale Japanese ASR Corpus on TV Recordings [2.28438857884398]
本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
論文 参考訳(メタデータ) (2021-03-26T21:14:12Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。