論文の概要: DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2505.19978v1
- Date: Mon, 26 May 2025 13:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.469127
- Title: DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset
- Title(参考訳): DeepDialogue:マルチTurn Emotionally-Rich Spoken Dialogueデータセット
- Authors: Alkis Koudounas, Moreno La Quatra, Elena Baralis,
- Abstract要約: DeepDialogueは40,150の高品質なマルチターン対話を含む大規模マルチモーダルデータセットである。
アプローチでは9つの異なる言語モデルを組み合わせて65,600の会話を生成します。
重要な貢献は、40,150の対話すべてに対して、感情一貫性のある音声を合成する、その音声成分である。
- 参考スコア(独自算出の注目度): 10.007636884318801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in conversational AI have demonstrated impressive capabilities in single-turn responses, yet multi-turn dialogues remain challenging for even the most sophisticated language models. Current dialogue datasets are limited in their emotional range, domain diversity, turn depth, and are predominantly text-only, hindering progress in developing more human-like conversational systems across modalities. To address these limitations, we present DeepDialogue, a large-scale multimodal dataset containing 40,150 high-quality multi-turn dialogues spanning 41 domains and incorporating 20 distinct emotions with coherent emotional progressions. Our approach pairs 9 different language models (4B-72B parameters) to generate 65,600 initial conversations, which we then evaluate through a combination of human annotation and LLM-based quality filtering. The resulting dataset reveals fundamental insights: smaller models fail to maintain coherence beyond 6 dialogue turns; concrete domains (e.g., "cars," "travel") yield more meaningful conversations than abstract ones (e.g., "philosophy"); and cross-model interactions produce more coherent dialogues than same-model conversations. A key contribution of DeepDialogue is its speech component, where we synthesize emotion-consistent voices for all 40,150 dialogues, creating the first large-scale open-source multimodal dialogue dataset that faithfully preserves emotional context across multi-turn conversations.
- Abstract(参考訳): 会話AIの最近の進歩は、シングルターン応答において印象的な能力を示しているが、最も洗練された言語モデルでさえ、マルチターン対話は難しいままである。
現在の対話データセットは、感情範囲、領域の多様性、旋回深さに限られており、主にテキストのみであり、モダリティを越えて人間のような会話システムを開発するのを妨げている。
この制限に対処するために,41ドメインにまたがる40,150の高品質なマルチターン対話を含む大規模マルチモーダルデータセットDeepDialogueを提案する。
提案手法では,9つの異なる言語モデル(4B-72Bパラメータ)を組み合わせ,65,600の会話を生成する。
結果として得られたデータセットは、小さなモデルでは6回以上のコヒーレンスを維持することができず、具体的なドメイン(例:カーズ、トラベル)は抽象的なドメイン(例:哲学)よりも有意義な会話をもたらす。
DeepDialogueの重要なコントリビューションは音声コンポーネントであり、40,150の対話すべてに対して感情一貫性のある音声を合成し、マルチターン会話を通して感情コンテキストを忠実に保存する最初の大規模オープンソースマルチモーダル対話データセットを作成する。
関連論文リスト
- KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus [69.46707346122113]
本稿では,人間間ビデオ駆動型多言語混在型対話コーパスを提案する。
KwaiChatのコーパスには合計93,209の動画と246,080の対話があり、4つの対話タイプ、30のドメイン、4つの言語、13のトピックが含まれている。
KwaiChat上での 7 つの異なる LLM の解析により、GPT-4o が最高の性能を発揮するが、この状況では性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - A Static and Dynamic Attention Framework for Multi Turn Dialogue Generation [37.79563028123686]
オープンドメインマルチターン対話生成では,対話履歴の文脈意味論をモデル化することが不可欠である。
従来の研究は、オープンドメインマルチターン対話生成における階層的再帰エンコーダデコーダフレームワークの有効性を検証していた。
本稿では,対話履歴をモデル化し,オープンドメインのマルチターン対話応答を生成する静的かつ動的アテンションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-28T06:05:34Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - DialoGPS: Dialogue Path Sampling in Continuous Semantic Space for Data
Augmentation in Multi-Turn Conversations [18.98951277038404]
オープンドメイン対話生成タスクでは、ほとんどのデータセットのコンテキストとレスポンスは1対1でマッピングされる。
連続意味空間におけるDialoGue Path Smpling(DialoGPS)を提案する。
論文 参考訳(メタデータ) (2023-06-29T08:12:47Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Generating Empathetic Responses with a Large Scale Dialog Dataset [0.76146285961466]
既存のモデルは、応答生成を導くために事前に定義された感情情報を直接組み込むか、応答感情を決定する決定論的ルールを使用する。
6000以上の人的評価インスタンスのベースラインと比較して,マルチターン共感ダイアログモデルの構築方法を示す。
論文 参考訳(メタデータ) (2021-05-14T13:45:40Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。