論文の概要: TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
- arxiv url: http://arxiv.org/abs/2508.16790v1
- Date: Fri, 22 Aug 2025 20:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.180219
- Title: TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
- Title(参考訳): TaDiCodec: 音声言語モデリングのためのテキスト認識拡散音声トケナイザ
- Authors: Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu,
- Abstract要約: テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
- 参考スコア(独自算出の注目度): 13.05578634768109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech tokenizers serve as foundational components for speech language models, yet current designs exhibit several limitations, including: 1) dependence on multi-layer residual vector quantization structures or high frame rates, 2) reliance on auxiliary pre-trained models for semantic distillation, and 3) requirements for complex two-stage training processes. In this work, we introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a novel approach designed to overcome these challenges. TaDiCodec employs end-to-end optimization for quantization and reconstruction through a diffusion autoencoder, while integrating text guidance into the diffusion decoder to enhance reconstruction quality and achieve optimal compression. TaDiCodec achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of 0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining superior performance on critical speech generation evaluation metrics such as Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS). Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and obviating the need for auxiliary pre-trained models. We also validate the compatibility of TaDiCodec in language model based zero-shot text-to-speech with both autoregressive modeling and masked generative modeling, demonstrating its effectiveness and efficiency for speech language modeling, as well as a significantly small reconstruction-generation gap. We will open source our code and model checkpoints. Audio samples are are available at https:/tadicodec.github.io/. We release code and model checkpoints at https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
- Abstract(参考訳): 音声トークン化器は、音声言語モデルの基本的な構成要素として機能するが、現在の設計にはいくつかの制限がある。
1) 多層残留ベクトル量子化構造や高フレームレートへの依存
2 セマンティック蒸留のための補助訓練済みモデルへの依存及び
3)複雑な2段階トレーニングプロセスの要件。
本研究では,テキスト対応拡散変換音声コーデック(TaDiCodec)を提案する。
TaDiCodecは、拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用し、テキストガイダンスを拡散デコーダに統合し、再構成品質を高め、最適な圧縮を実現する。
TaDiCodecは、ワードエラー率(WER)、話者類似度(SIM)、音声品質(UTMOS)などの重要な音声生成評価指標において優れた性能を維持しながら、24kHzの単一層コードブックを用いて、フレームレート6.25Hz、ビットレート0.0875kbpsという極めて低いフレームレートを実現している。
特にTaDiCodecは、単一ステージのエンドツーエンドトレーニングパラダイムを採用し、補助的な事前トレーニングモデルの必要性を回避している。
また,言語モデルに基づくゼロショットテキスト音声におけるTaDiCodecの自己回帰モデルとマスク付き生成モデルとの整合性を検証し,言語モデルの有効性と効率性を実証し,再構成・生成のギャップを著しく小さくする。
コードとモデルチェックポイントをオープンソースにします。
オーディオサンプルはhttps:/tadicodec.github.io/で入手できる。
https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizerでコードとモデルチェックポイントをリリースします。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。