論文の概要: Spoken DialogSum: An Emotion-Rich Conversational Dataset for Spoken Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2512.14687v1
- Date: Tue, 16 Dec 2025 18:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.841602
- Title: Spoken DialogSum: An Emotion-Rich Conversational Dataset for Spoken Dialogue Summarization
- Title(参考訳): Spoken DialogSum: 音声対話要約のための感情リッチ会話データセット
- Authors: Yen-Ju Lu, Kunxiao Gao, Mingrui Liang, Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Najim Dehak, Jesus Villalba,
- Abstract要約: Spoken DialogSumは、生の会話音声を現実の要約、感情に富んだ要約、発話レベルラベルと整合させる最初のコーパスである。
データセットは13,460の感情の多様性の対話で構成され、それぞれが事実と感情に焦点を当てた要約をペアリングする。
ベースラインでは、Audio-LLMは、ASR-LLMシステムと比較して感情的な終末ROUGE-Lを28%上昇させる。
- 参考スコア(独自算出の注目度): 21.32336226752075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent audio language models can follow long conversations. However, research on emotion-aware or spoken dialogue summarization is constrained by the lack of data that links speech, summaries, and paralinguistic cues. We introduce Spoken DialogSum, the first corpus aligning raw conversational audio with factual summaries, emotion-rich summaries, and utterance-level labels for speaker age, gender, and emotion. The dataset is built in two stages: first, an LLM rewrites DialogSum scripts with Switchboard-style fillers and back-channels, then tags each utterance with emotion, pitch, and speaking rate. Second, an expressive TTS engine synthesizes speech from the tagged scripts, aligned with paralinguistic labels. Spoken DialogSum comprises 13,460 emotion-diverse dialogues, each paired with both a factual and an emotion-focused summary. The dataset is available online at https://fatfat-emosum.github.io/EmoDialog-Sum-Audio-Samples/. Baselines show that an Audio-LLM raises emotional-summary ROUGE-L by 28% relative to a cascaded ASR-LLM system, confirming the value of end-to-end speech modeling.
- Abstract(参考訳): 最近の音声言語モデルは長い会話に従うことができる。
しかし、感情認識や音声対話の要約に関する研究は、音声、要約、パラ言語的手がかりをリンクするデータの欠如によって制限されている。
Spoken DialogSumは、会話音声を現実の要約、感情に富んだ要約、話者年齢、性別、感情の発話レベルラベルと整合させる最初のコーパスである。
まず、LLMがDialogSumスクリプトをSwitchboardスタイルのフィラーとバックチャネルで書き直し、各発話を感情、ピッチ、発話率でタグ付けする。
第2に、表現型TSエンジンは、パラ言語ラベルと整列して、タグ付けされたスクリプトから音声を合成する。
Spoken DialogSumは13,460の感情の異なる対話で構成され、それぞれが事実と感情に焦点を当てた要約をペアリングする。
データセットはhttps://fatfat-emosum.github.io/EmoDialog-Sum-Audio-Samples/.comで公開されている。
ベースラインでは、Audio-LLMは、ASR-LLMシステムと比較して感情の終末ROUGE-Lを28%上昇させ、エンドツーエンドの音声モデリングの価値を確認している。
関連論文リスト
- ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching [22.477986192421767]
本稿では,フローマッチングに基づく非自己回帰音声対話生成モデルZipVoice-Dialogを紹介する。
主なデザインは、正確な話者のターンテイクのためのスピーカーターン埋め込みである。
我々は6.8khの音声対話データセットであるOpenDialogを、帯域内音声データからキュレートした。
論文 参考訳(メタデータ) (2025-07-12T15:18:47Z) - Retrieval-Augmented Dialogue Knowledge Aggregation for Expressive Conversational Speech Synthesis [39.25088200618052]
会話音声合成 (CSS) は, 現在の対話 (CD) の歴史を, 会話スタイルに整合した表現的音声合成への参照として捉えることを目的としている。
CDとは異なり、ストアド・ダイアログ(SD)はユーザーとエージェントの相互作用の初期段階から保存されたダイアログの断片を含んでいる。
この知識は,共感的フィードバックを生成する表現的会話音声の合成を可能にする上で重要な役割を担っている。
論文 参考訳(メタデータ) (2025-01-11T07:43:18Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Chat-Capsule: A Hierarchical Capsule for Dialog-level Emotion Analysis [70.98130990040228]
本稿では,発話レベルと対話レベルの両方の感情とその相互関係をモデル化したコンテキストベースの階層的注意カプセル(Chat-Capsule)モデルを提案する。
Eコマースプラットフォームの顧客サポートから収集したダイアログデータセットでは,ユーザの満足度や感情曲線のカテゴリも予測できる。
論文 参考訳(メタデータ) (2022-03-23T08:04:30Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。