論文の概要: Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations
- arxiv url: http://arxiv.org/abs/2507.12197v1
- Date: Wed, 16 Jul 2025 12:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.391063
- Title: Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations
- Title(参考訳): 後続の量子化音声表現による自己回帰生成
- Authors: Yichen Han, Xiaoyang Hao, Keming Chen, Weibo Xiong, Jun He, Ruonan Zhang, Junjie Cao, Yue Liu, Bowen Li, Dongrui Zhang, Hui Xia, Huilei Fu, Kai Jia, Kaixuan Guo, Mingli Jin, Qingyun Meng, Ruidong Ma, Ruiqian Fang, Shaotong Guo, Xuhui Li, Yang Xiang, Ying Zhang, Yulong Liu, Yunfeng Li, Yuyi Zhang, Yuze Zhou, Zhen Wang, Zhaowen Chen,
- Abstract要約: 既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
- 参考スコア(独自算出の注目度): 26.938560887095658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) synthesis has seen renewed progress under the discrete modeling paradigm. Existing autoregressive approaches often rely on single-codebook representations, which suffer from significant information loss. Even with post-hoc refinement techniques such as flow matching, these methods fail to recover fine-grained details (e.g., prosodic nuances, speaker-specific timbres), especially in challenging scenarios like singing voice or music synthesis. We propose QTTS, a novel TTS framework built upon our new audio codec, QDAC. The core innovation of QDAC lies in its end-to-end training of an ASR-based auto-regressive network with a GAN, which achieves superior semantic feature disentanglement for scalable, near-lossless compression. QTTS models these discrete codes using two innovative strategies: the Hierarchical Parallel architecture, which uses a dual-AR structure to model inter-codebook dependencies for higher-quality synthesis, and the Delay Multihead approach, which employs parallelized prediction with a fixed delay to accelerate inference speed. Our experiments demonstrate that the proposed framework achieves higher synthesis quality and better preserves expressive content compared to baseline. This suggests that scaling up compression via multi-codebook modeling is a promising direction for high-fidelity, general-purpose speech and audio generation.
- Abstract(参考訳): テキスト音声合成(TTS)は離散モデリングパラダイムの下で新たな進歩を遂げている。
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
フローマッチングのようなポストホックな洗練された技法であっても、これらの手法は特に歌声や音楽合成といった難易度の高いシナリオにおいて、細かな詳細(例えば韻律的なニュアンス、話者固有の音色)を回復することができない。
我々は、新しいオーディオコーデックであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
QDACの中核的な革新は、スケーラブルでほぼロスレスな圧縮のために優れたセマンティック機能障害を実現する、ASRベースの自動回帰ネットワークをGANでエンドツーエンドにトレーニングすることにある。
QTTSは2つの革新的な戦略を用いてこれらの離散的なコードをモデル化する: 階層的並列アーキテクチャは、高品質な合成のためにコードブック間の依存関係をモデル化するためにデュアルAR構造を使用する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
このことは、マルチコードブックモデリングによる圧縮のスケールアップが、高忠実で汎用的な音声および音声生成に有望な方向であることを示唆している。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy [20.962236229450454]
本稿では,AR音声生成における効率性とインテリジェンス性を両立させるために,DCARと呼ばれる動的チャンクワイド自己回帰合成フレームワークを提案する。
DCARは従来の次世代予測モデルを大きく上回り、72.27%の知性向上と2.61倍の推論速度を同時に達成した。
論文 参考訳(メタデータ) (2025-06-27T08:45:21Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。