論文の概要: DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding
- arxiv url: http://arxiv.org/abs/2506.22362v1
- Date: Fri, 27 Jun 2025 16:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.283662
- Title: DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding
- Title(参考訳): DiffSoundStream:拡散デコーディングによる効率的な音声トークン化
- Authors: Yang Yang, Yunpeng Li, George Sung, Shao-Fu Shih, Craig Dooley, Alessio Centazzo, Ramanan Rajeswaran,
- Abstract要約: DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。
実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
- 参考スコア(独自算出の注目度): 12.05169114091718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-based language modeling is a prominent approach for speech generation, where tokens are obtained by quantizing features from self-supervised learning (SSL) models and extracting codes from neural speech codecs, generally referred to as semantic tokens and acoustic tokens. These tokens are often modeled autoregressively, with the inference speed being constrained by the token rate. In this work, we propose DiffSoundStream, a solution that improves the efficiency of speech tokenization in non-streaming scenarios through two techniques: (1) conditioning the neural codec on semantic tokens to minimize redundancy between semantic and acoustic tokens, and (2) leveraging latent diffusion models to synthesize high-quality waveforms from semantic and coarse-level acoustic tokens. Experiments show that at 50 tokens per second, DiffSoundStream achieves speech quality on par with a standard SoundStream model operating at twice the token rate. Additionally, we achieve step-size distillation using just four diffusion sampling steps with only a minor quality loss.
- Abstract(参考訳): トークンベースの言語モデリングは、自己教師付き学習(SSL)モデルからの特徴を定量化し、一般的にセマンティックトークンやアコースティックトークンと呼ばれるニューラル音声コーデックからコードを取り出すことによってトークンを得る、音声生成における顕著なアプローチである。
これらのトークンはしばしば自己回帰的にモデル化され、推論速度はトークンレートによって制限される。
本研究では,(1)意味的トークンと音響的トークンの冗長性を最小化するために,意味的トークンにニューラルコーデックを条件付け,(2)意味的および粗いレベルの音響的トークンから高品質な波形を合成するために,潜時拡散モデルを活用する,という2つの手法により,非ストリーミングシナリオにおける音声トークン化の効率を向上させるソリューションDiffSoundStreamを提案する。
実験によると、毎秒50トークンのDiffSoundStreamは、標準的なSoundStreamモデルと同等の音声品質をトークンレートの2倍で実現している。
さらに, わずか4段階の拡散サンプリング法により, 少量の品質損失しか得られない段差蒸留を実現した。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。
私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。
実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4~5に短縮された。
論文 参考訳(メタデータ) (2024-10-17T17:55:26Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。