論文の概要: UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information
- arxiv url: http://arxiv.org/abs/2505.17426v1
- Date: Fri, 23 May 2025 03:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.786889
- Title: UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information
- Title(参考訳): UniTTS:音響情報と意味情報の分離のないエンドツーエンドTTSシステム
- Authors: Rui Wang, Qianguo Sun, Tianrong Chen, Zhiyun Zeng, Junlong Wu, Jiaxing Zhang,
- Abstract要約: 以下の利点を総合的に提供する DistilCodec と UniTTS を提案する。
DistilCodecは、マルチコードブックオーディオを32のコードを持つシングルコードブックオーディオに蒸留し、100%近い利用率を達成する。
UniTTSは3段階のトレーニングプロセス(事前訓練、監視ファインチューニング(SFT)、アライメント)を採用している。
- 参考スコア(独自算出の注目度): 12.991605203384458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of multi-codebook neutral audio codecs such as Residual Vector Quantization (RVQ) and Group Vector Quantization (GVQ) has significantly advanced Large-Language-Model (LLM) based Text-to-Speech (TTS) systems. These codecs are crucial in separating semantic and acoustic information while efficiently harnessing semantic priors. However, since semantic and acoustic information cannot be fully aligned, a significant drawback of these methods when applied to LLM-based TTS is that large language models may have limited access to comprehensive audio information. To address this limitation, we propose DistilCodec and UniTTS, which collectively offer the following advantages: 1) This method can distill a multi-codebook audio codec into a single-codebook audio codec with 32,768 codes while achieving a near 100\% utilization. 2) As DistilCodec does not employ a semantic alignment scheme, a large amount of high-quality unlabeled audio (such as audiobooks with sound effects, songs, etc.) can be incorporated during training, further expanding data diversity and broadening its applicability. 3) Leveraging the comprehensive audio information modeling of DistilCodec, we integrated three key tasks into UniTTS's pre-training framework: audio modality autoregression, text modality autoregression, and speech-text cross-modal autoregression. This allows UniTTS to accept interleaved text and speech/audio prompts while substantially preserving LLM's text capabilities. 4) UniTTS employs a three-stage training process: Pre-Training, Supervised Fine-Tuning (SFT), and Alignment. Source code and model checkpoints are publicly available at https://github.com/IDEA-Emdoor-Lab/UniTTS and https://github.com/IDEA-Emdoor-Lab/DistilCodec.
- Abstract(参考訳): Residual Vector Quantization (RVQ) や Group Vector Quantization (GVQ) のようなマルチコードブック中立オーディオコーデックの出現は、LLM(Large-Language-Model) ベースの Text-to-Speech (TTS) システムを大きく進歩させた。
これらのコーデックは意味的情報と音響的情報を分離し、意味的先行情報を効率的に活用するのに重要である。
しかし、意味情報と音響情報が完全に一致しないため、LLMベースのTSに適用する場合のこれらの手法の重大な欠点は、大規模な言語モデルが包括的オーディオ情報へのアクセスに制限される可能性があることである。
この制限に対処するため、我々は以下の利点をまとめて提供するDistilCodecとUniTTSを提案する。
1) この方法は, マルチコードブックオーディオコーデックを32,768コーデックの単一コードブックオーディオコーデックに蒸留し, ほぼ100%の利用が可能となる。
2) DistilCodecはセマンティックアライメント・スキームを採用していないため,トレーニング中に大量の高品質な未収録オーディオ(音響効果のあるオーディオブック,歌など)を組み込むことで,データの多様性をさらに拡大し,適用性を高めることができる。
3) DistilCodecの包括的音声情報モデリングを活用することで,UniTTSの事前学習フレームワークに3つの重要なタスクを組み込んだ。
これにより、UniTTSはインターリーブされたテキストと音声/音声のプロンプトを受け入れることができ、LLMのテキスト機能は実質的に保存できる。
4) UniTTSは3段階のトレーニングプロセス(事前訓練、監視ファインチューニング(SFT)、アライメント)を採用している。
ソースコードとモデルチェックポイントはhttps://github.com/IDEA-Emdoor-Lab/UniTTSとhttps://github.com/IDEA-Emdoor-Lab/DistilCodecで公開されている。
関連論文リスト
- Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。