論文の概要: LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization
- arxiv url: http://arxiv.org/abs/2506.16738v1
- Date: Fri, 20 Jun 2025 04:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.338247
- Title: LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization
- Title(参考訳): LM-SPT:音声トークン化のためのLM対応セマンティック蒸留
- Authors: Daejin Jo, Jeeyoung Yun, Byungseok Roh, Sungwoong Kim,
- Abstract要約: 近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
- 参考スコア(独自算出の注目度): 8.365515332927444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid progress of speech language models (SLMs), discrete speech tokens have emerged as a core interface between speech and text, enabling unified modeling across modalities. Recent speech tokenization approaches aim to isolate semantic information from low-level acoustics to better align with language models. In particular, previous methods use SSL teachers such as HuBERT to extract semantic representations, which are then distilled into a semantic quantizer to suppress acoustic redundancy as well as capture content-related latent structures. However, they still produce speech token sequences significantly longer than their textual counterparts, creating challenges for efficient speech-language modeling. Reducing the frame rate is a natural solution, but standard techniques, such as rigid average pooling across frames, can distort or dilute the semantic structure required for effective LM alignment. To address this, we propose LM-SPT, a speech tokenization method that introduces a novel semantic distillation. Instead of directly matching teacher and student features via pooling, we reconstruct speech solely from semantic tokens and minimize the discrepancy between the encoded representations of the original and reconstructed waveforms, obtained from a frozen automatic speech recognition (ASR) encoder. This indirect yet data-driven supervision enables the tokenizer to learn discrete units that are more semantically aligned with language models. LM-SPT further incorporates architectural improvements to the encoder and decoder for speech tokenization, and supports multiple frame rates, including 25Hz, 12.5Hz, and 6.25Hz. Experimental results show that LM-SPT achieves superior reconstruction fidelity compared to baselines, and that SLMs trained with LM-SPT tokens achieve competitive performances on speech-to-text and consistently outperform baselines on text-to-speech tasks.
- Abstract(参考訳): 音声認識モデル(SLM)の急速な進歩により、音声とテキストのコアインターフェースとして離散音声トークンが登場し、モダリティをまたいだ統一モデリングが可能となった。
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
特に、従来の方法では、HuBERTのようなSSL教師を用いて意味表現を抽出し、それを意味量化器に蒸留し、音響的冗長性を抑えるとともに、コンテンツに関連する潜在構造をキャプチャする。
しかし、音声トークンのシーケンスはテキストよりもかなり長くなるため、効率的な音声言語モデリングの課題が生じる。
フレームレートの低減は自然な解決法であるが、フレーム全体にわたる厳密な平均プールのような標準的な手法は、効果的なLMアライメントに必要な意味構造を歪めたり弱めたりすることができる。
そこで本研究では,新しい意味蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
教師と生徒の機能をプール方式で直接マッチングする代わりに、意味トークンからのみ音声を再構成し、凍結自動音声認識(ASR)エンコーダから得られる元の波形と再構成された波形の符号化された表現との差を最小限に抑える。
この間接的かつデータ駆動型の監視により、トークン作成者は言語モデルによりセマンティックに整合した離散単位を学ぶことができる。
LM-SPTはさらに、音声トークン化のためのエンコーダとデコーダのアーキテクチャ改善を取り入れ、25Hz、12.5Hz、6.25Hzを含む複数のフレームレートをサポートする。
実験結果から, LM-SPTはベースラインよりも優れた再構成忠実度を実現し, LM-SPTトークンで訓練されたSLMはテキスト・テキスト上での競争性能を達成し, テキスト・音声タスクにおけるベースラインを一貫して上回ることがわかった。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。