論文の概要: VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
- arxiv url: http://arxiv.org/abs/2605.06765v1
- Date: Thu, 07 May 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.523095
- Title: VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
- Title(参考訳): VITA-QinYu:ロールプレイングと歌唱のための表現型音声言語モデル
- Authors: Jiacheng Xu, Heting Gao, Liufei Xie, Zhenchuan Yang, Lijiang Li, Yiting Chen, Bin Zhang, Meng Chen, Chaoyu Fu, Weifeng Zhao, Wenjiang Zhou,
- Abstract要約: ロールプレイングと歌声生成の両方をサポートする最初のエンド・ツー・エンド(E2E)音声言語モデルであるVITAQinYuを提案する。
我々は,自然会話,ロールプレイング,歌唱データを15.8K時間合成して訓練を行う。
VITAQinYuは、5ポイントのMOSスケールでピアモデルを0.13ポイント上回り、対物的なロールプレイングベンチマークでピアSLMを7ポイント上回っている。
- 参考スコア(独自算出の注目度): 17.32511504880848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human speech conveys expressiveness beyond linguistic content, including personality, mood, or performance elements, such as a comforting tone or humming a song, which we formalize as role-playing and singing. We present VITA-QinYu, the first expressive end-to-end (E2E) spoken language model (SLM) that goes beyond natural conversation to support both role-playing and singing generation. VITA-QinYu adopts a hybrid speech-text paradigm that extends interleaved text-audio modeling with multi-codebook audio tokens, a design enabling richer paralinguistic representation while preserving a clear separation between modalities to avoid interference. We further develop a comprehensive data generation pipeline to synthesize a total of 15.8K hours of natural conversation, role-playing, and singing data for training. VITA-QinYu demonstrates superior expressiveness, outperforming peer SLMs by 7 percentage points on objective role-playing benchmarks, and surpassing peer models by 0.13 points on a 5-point MOS scale for singing. Simultaneously, it achieves state-of-the-art conversational accuracy and fluency, exceeding prior SLMs by 1.38 and 4.98 percentage points on the C3 and URO benchmarks, respectively. We open-source our code and models and provide an easy-to-use demo with full-stack support for streaming and full-duplex interaction.
- Abstract(参考訳): 人間のスピーチは、人格、気分、演奏要素など、言語的内容を超えた表現力、例えば快適なトーンや歌のハミングなど、私たちはロールプレイングや歌として形式化します。
我々は,ロールプレイングと歌声生成の両方をサポートするために,自然会話を超越した最初の表現型エンドツーエンド言語モデル (E2E) であるVITA-QinYuを提案する。
VITA-QinYuは、マルチコードブック音声トークンによるインターリーブテキストオーディオモデリングを拡張したハイブリッド音声テキストパラダイムを採用している。
我々はさらに、自然会話、ロールプレイング、およびトレーニングのための歌唱データの合計15.8K時間の総合データ生成パイプラインを開発する。
VITA-QinYuは、優れた表現性を示し、客観的なロールプレイングベンチマークでピアSLMを7ポイント上回り、歌唱のための5ポイントMOSスケールでピアモデルを0.13ポイント上回る。
同時に、C3ベンチマークとUROベンチマークでそれぞれ1.38ポイントと4.98ポイントのSLMを上回り、最先端の会話精度と流速を達成する。
当社はコードとモデルをオープンソースとして公開し、ストリーミングとフル二重インタラクションをフルスタックでサポートする、使いやすいデモを提供しています。
関連論文リスト
- OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation [23.892686638994043]
条件付きフローマッチング(CFM)ゼロショットオーディオ・ヴィジュアルを提案する。
CFMを用いたマルチモーダルガイダンスを利用することで、話者固有の特徴を頑健に保存し、ゼロショットAV2AV翻訳能力を向上する。
論文 参考訳(メタデータ) (2025-03-14T02:48:43Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。