論文の概要: HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
- arxiv url: http://arxiv.org/abs/2605.29948v2
- Date: Mon, 01 Jun 2026 07:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.740598
- Title: HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
- Title(参考訳): HoliTok: 音声生成と理解のロバストなデュアル機能を有する不明瞭なホロスティックトークン化
- Authors: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu,
- Abstract要約: 本稿では,一元的生成に基づくモデリングのための連続的ホロスティック音声トークン化モデルを提案する。
HoliTokは48kHzの音声を128次元のラテントの25Hzのコンパクトなシーケンスに符号化する。
実験により,HoliTokは競争力のある再現性を実現し,高品質で制御可能な合成のための生成的学習性を向上させることが示された。
- 参考スコア(独自算出の注目度): 27.487275558312774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-quality waveforms. Existing speech tokenizers, however, often fail to satisfy these requirements simultaneously, leading to increased architectural complexity and more involved training designs. We propose HoliTok, a continuous Holistic speech Tokenization model designed for unified generation-understanding modeling. HoliTok encodes 48~kHz speech into a compact 25~Hz sequence of 128-dimensional latents. It is trained with a progressive strategy that jointly preserves signal-level fidelity, incorporates semantic information, and maintains strong latent learnability. Based on this tokenization, we build a unified AR+DiT model for speech synthesis and recognition, where the same latent sequence supports both generation-specific and unified generation-understanding tasks. Experiments show that HoliTok achieves competitive reconstruction fidelity, improves generative learnability for high-quality and controllable synthesis, and, among the evaluated representations, is the only one that operates robustly in our unified generation-understanding architecture without additional optimization tricks. These results suggest that HoliTok serves as an effective speech tokenizer and a foundational representation interface for unified spoken language modeling. The code is available at: https://github.com/bovod-sjtu/HoliTok.
- Abstract(参考訳): 統一音声基礎モデルは、言語モデルによって学習可能であり、高品質な波形に復調可能な全体的トークン化空間を必要とする。
しかし、既存の音声トークン化器はしばしばこれらの要件を同時に満たすことができず、アーキテクチャの複雑さが増し、より関連する訓練設計へと繋がる。
本稿では,統合された世代理解モデリングのための連続的ホロスティック音声トークン化モデルであるHoliTokを提案する。
HoliTokは48〜kHzの音声を、128次元のラテントの25〜Hzのコンパクトなシーケンスに符号化する。
信号レベルの忠実さを共同で保存し、意味情報を取り入れ、強力な潜在学習性を維持するプログレッシブ戦略で訓練される。
このトークン化に基づいて、音声合成と音声認識のための統合AR+DiTモデルを構築する。
実験により,HoliTokは競争力のある再現性を実現し,高品質で制御可能な合成のための生成的学習性を向上させることが示され,評価された表現の中で,追加の最適化トリックを伴わずに,我々の統合世代基盤アーキテクチャにおいて堅牢に動作するのは唯一である。
以上の結果から,HoliTokは効果的な音声トークン化および統合音声言語モデリングのための基礎的表現インタフェースとして機能することが示唆された。
コードは、https://github.com/bovod-sjtu/HoliTok.comで入手できる。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora [24.886364035559907]
本研究では, 音声合成を訓練源として用い, 実際の録音を目標として保持することで, 新たなアプローチを採るMimicLMを提案する。
実験により、MimicLMはシンプルで効果的なアーキテクチャで優れた音声模倣品質を実現することが示された。
論文 参考訳(メタデータ) (2026-04-13T14:40:25Z) - End-to-End Training for Unified Tokenization and Latent Denoising [82.91537591286554]
統一トークン化と潜伏拡散のためのオートエンコーダアーキテクチャUNITEを提案する。
UNITEは、画像トークン化器と重量共有による潜伏ジェネレータの両方として機能するジェネレータで構成されている。
トークン化とスクラッチ生成の単一段階共同訓練が実現可能であることを示す。
論文 参考訳(メタデータ) (2026-03-23T17:59:49Z) - LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。