論文の概要: UltraVoice: Scaling Fine-Grained Style-Controlled Speech Conversations for Spoken Dialogue Models
- arxiv url: http://arxiv.org/abs/2510.22588v1
- Date: Sun, 26 Oct 2025 09:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.541665
- Title: UltraVoice: Scaling Fine-Grained Style-Controlled Speech Conversations for Spoken Dialogue Models
- Title(参考訳): UltraVoice:音声対話モデルのための細粒度スタイル制御音声対話のスケーリング
- Authors: Wenming Tu, Guanrou Yang, Ruiqi Yan, Wenxi Chen, Ziyang Ma, Yipeng Kang, Kai Yu, Xie Chen, Zilong Zheng,
- Abstract要約: 我々は,複数のきめ細かい音声スタイル制御のために開発された,最初の大規模音声対話データセットであるUltraVoiceを紹介する。
SLAM-OmniやVocalNet on UltraVoiceのような微調整型の先行モデルは、その微調整性を大幅に向上させる。
URO-Benchベンチマークでは、微調整されたモデルでは、コア理解、推論、会話能力が大幅に向上した。
- 参考スコア(独自算出の注目度): 37.12134339309316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue models currently lack the ability for fine-grained speech style control, a critical capability for human-like interaction that is often overlooked in favor of purely functional capabilities like reasoning and question answering. To address this limitation, we introduce UltraVoice, the first large-scale speech dialogue dataset engineered for multiple fine-grained speech style control. Encompassing over 830 hours of speech dialogues, UltraVoice provides instructions across six key speech stylistic dimensions: emotion, speed, volume, accent, language, and composite styles. Fine-tuning leading models such as SLAM-Omni and VocalNet on UltraVoice significantly enhances their fine-grained speech stylistic controllability without degrading core conversational abilities. Specifically, our fine-tuned models achieve improvements of 29.12-42.33% in Mean Opinion Score (MOS) and 14.61-40.09 percentage points in Instruction Following Rate (IFR) on multi-dimensional control tasks designed in the UltraVoice. Moreover, on the URO-Bench benchmark, our fine-tuned models demonstrate substantial gains in core understanding, reasoning, and conversational abilities, with average improvements of +10.84% on the Basic setting and +7.87% on the Pro setting. Furthermore, the dataset's utility extends to training controllable Text-to-Speech (TTS) models, underscoring its high quality and broad applicability for expressive speech synthesis. The complete dataset and model checkpoints are available at: https://github.com/bigai-nlco/UltraVoice.
- Abstract(参考訳): 音声対話モデルは、現在、微粒な音声スタイル制御能力が欠如している。これは人間のようなインタラクションにとって重要な能力であり、推論や質問応答のような純粋に機能的な機能にしばしば見過ごされる。
この制限に対処するために,複数のきめ細かな音声スタイル制御のために設計された,最初の大規模音声対話データセットであるUltraVoiceを導入する。
音声対話に830時間以上を費やしたUltraVoiceは、感情、スピード、ボリューム、アクセント、言語、複合スタイルの6つの主要な音声スタイリスティックな側面に指示を与える。
SLAM-OmniやVocalNet on UltraVoiceのような微調整型先行モデルは、中核的な会話能力の低下を伴わずに、その微調整性を大幅に向上させる。
具体的には、UltraVoiceで設計した多次元制御タスクにおいて、平均オピニオンスコア(MOS)の29.12-42.33%、命令追従レート(IFR)の14.61-40.09ポイントの改善を実現している。
さらに,URO-Benchベンチマークでは,基本設定では+10.84%,Pro設定では+7.87%,コア理解,推論,会話能力が大幅に向上した。
さらに、データセットの実用性は、制御可能なテキスト音声(TTS)モデルのトレーニングにまで拡張され、その高品質で広範な音声合成の適用性が強調される。
完全なデータセットとモデルチェックポイントは、https://github.com/bigai-nlco/UltraVoice.comで入手できる。
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching [22.477986192421767]
本稿では,フローマッチングに基づく非自己回帰音声対話生成モデルZipVoice-Dialogを紹介する。
主なデザインは、正確な話者のターンテイクのためのスピーカーターン埋め込みである。
我々は6.8khの音声対話データセットであるOpenDialogを、帯域内音声データからキュレートした。
論文 参考訳(メタデータ) (2025-07-12T15:18:47Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。