論文の概要: Scaling Speech Tokenizers with Diffusion Autoencoders
- arxiv url: http://arxiv.org/abs/2602.06602v1
- Date: Fri, 06 Feb 2026 10:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.365459
- Title: Scaling Speech Tokenizers with Diffusion Autoencoders
- Title(参考訳): 拡散オートエンコーダを用いた音声トケナイザのスケーリング
- Authors: Yuancheng Wang, Zhenyu Tang, Yun Wang, Arthur Hinsvark, Yingru Liu, Yinghao Li, Kainan Peng, Junyi Ao, Mingbo Ma, Mike Seltzer, Qing He, Xubo Liu,
- Abstract要約: Speech Diffusion Tokenizer (SiTok) は、教師付き学習により意味豊かな表現を学習し、拡散を伴う高忠実な音声再構成を可能にする拡散オートエンコーダである。
私たちはSiTokを1.6Bパラメータに拡張し、200万時間のスピーチでトレーニングします。実験によると、SiTokは理解、再構築、生成タスクにおいて、非常に低いトークンレートで、毎秒200ビットのビットレートで、強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 29.796651048641454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech tokenizers are foundational to speech language models, yet existing approaches face two major challenges: (1) balancing trade-offs between encoding semantics for understanding and acoustics for reconstruction, and (2) achieving low bit rates and low token rates. We propose Speech Diffusion Tokenizer (SiTok), a diffusion autoencoder that jointly learns semantic-rich representations through supervised learning and enables high-fidelity audio reconstruction with diffusion. We scale SiTok to 1.6B parameters and train it on 2 million hours of speech. Experiments show that SiTok outperforms strong baselines on understanding, reconstruction and generation tasks, at an extremely low token rate of $12.5$ Hz and a bit-rate of 200 bits-per-second.
- Abstract(参考訳): 音声トークン化は音声言語モデルの基礎となっているが,既存のアプローチでは,(1)理解のための意味論と再構成のための音響学とのトレードオフのバランス,(2)低ビットレートと低トークンレートの達成という2つの大きな課題に直面している。
教師付き学習により意味豊かな表現を共同学習し,拡散を伴う高忠実度音声再構成を可能にする拡散オートエンコーダであるSpeech Diffusion Tokenizer (SiTok)を提案する。
私たちはSiTokを1.6Bパラメータに拡張し、200万時間のスピーチでトレーニングします。
実験によると、SiTokは理解、再構築、生成タスクにおいて、非常に低いトークンレートで12.5$ Hz、ビットレートで200bits/秒で強力なベースラインを達成している。
関連論文リスト
- TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding [12.05169114091718]
DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。
実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
論文 参考訳(メタデータ) (2025-06-27T16:23:07Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。