論文の概要: DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech
- arxiv url: http://arxiv.org/abs/2207.01063v1
- Date: Sun, 3 Jul 2022 15:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 13:05:46.149619
- Title: DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech
- Title(参考訳): DailyTalk:会話テキスト対音声のための音声対話データセット
- Authors: Keon Lee, Kyumin Park, Daeyoung Kim
- Abstract要約: テキスト音声のための高品質な会話音声データセットであるDailyTalkを紹介する。
オープンドメイン対話データセットDailyDialogから,2,541件の対話をサンプリング,修正,記録した。
我々は,従来の業務をベースラインとして拡張し,非自己回帰的TTSがダイアログの履歴情報に基づいて条件付けされるようにした。
- 参考スコア(独自算出の注目度): 4.339031624083067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of current TTS datasets, which are collections of individual
utterances, contain few conversational aspects in terms of both style and
metadata. In this paper, we introduce DailyTalk, a high-quality conversational
speech dataset designed for Text-to-Speech. We sampled, modified, and recorded
2,541 dialogues from the open-domain dialogue dataset DailyDialog which are
adequately long to represent context of each dialogue. During the data
construction step, we maintained attributes distribution originally annotated
in DailyDialog to support diverse dialogue in DailyTalk. On top of our dataset,
we extend prior work as our baseline, where a non-autoregressive TTS is
conditioned on historical information in a dialog. We gather metadata so that a
TTS model can learn historical dialog information, the key to generating
context-aware speech. From the baseline experiment results, we show that
DailyTalk can be used to train neural text-to-speech models, and our baseline
can represent contextual information. The DailyTalk dataset and baseline code
are freely available for academic use with CC-BY-SA 4.0 license.
- Abstract(参考訳): 現在のttsデータセットの大部分は、個々の発話の集合であり、スタイルとメタデータの両面で会話的な側面がほとんどない。
本稿では,テキスト音声のための高品質な会話音声データセットであるDailyTalkを紹介する。
各対話の文脈を表現するのに十分な長さのオープンドメイン対話データセットであるdailydialogから,2,541の対話をサンプリング,修正,記録した。
データ構築のステップでは、dailytalkの多様な対話をサポートするために、dailydialogでアノテートされた属性の配布を維持しました。
データセット上では、非自己回帰的TSがダイアログの履歴情報に基づいて条件付けされるように、前処理をベースラインとして拡張します。
我々は,ttsモデルが歴史的対話情報を学習できるようにメタデータを収集し,文脈認識音声生成の鍵となる。
ベースライン実験の結果から,DailyTalkはニューラルテキスト音声モデルのトレーニングに利用でき,ベースラインは文脈情報を表現することができることを示した。
DailyTalkデータセットとベースラインコードは、CC-BY-SA 4.0ライセンスで学術的に自由に利用できる。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - doc2dial: A Goal-Oriented Document-Grounded Dialogue Dataset [24.040517978408484]
doc2dialは、ドキュメントに基礎を置いたゴール指向の対話の新しいデータセットである。
まず、テキストセクション間の高レベルな関係に対応するコンテンツ要素に基づいて対話フローを構築する。
我々は,これらの対話フローを参加者に提示し,会話音声を作成する。
論文 参考訳(メタデータ) (2020-11-12T19:08:44Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。