論文の概要: Efficient Interleaved Speech Modeling through Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.23670v1
- Date: Mon, 30 Jun 2025 09:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.001447
- Title: Efficient Interleaved Speech Modeling through Knowledge Distillation
- Title(参考訳): 知識蒸留による効率的なインターリーブ音声モデリング
- Authors: Mohammadmahdi Nouriborji, Morteza Rohanian,
- Abstract要約: 現在の音声言語モデルは、多くのデプロイメント環境のサイズやレイテンシの制約を超える。
我々は, 層状蒸留, 隠れ状態のマッチング, 注意マップ, 軟化ロジットにより, コンパクトで表現力豊かな音声生成モデルを構築した。
TinyWave は (i) 音声または表現的トークンと (ii) 混合音声テキスト継続を用いた音声のみの生成をサポートする。
- 参考スコア(独自算出の注目度): 5.389972857470079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current speech language models exceed the size and latency constraints of many deployment environments. We build compact, expressive speech generation models through layer-aligned distillation, matching hidden states, attention maps, and softened logits to compress large multimodal transformers by 3x with minimal loss in performance. We introduce TinyWave, a family of 2B-parameter models for speech-to-speech and interleaved speech-text generation, trained on 50,000 hours of public audio. TinyWave supports (i) speech-only generation using phonetic or expressive tokens and (ii) mixed speech-text continuations. Evaluation on Libri-Light shows TinyWave within 1.4 normalized perplexity points of its teacher. Accuracy on spoken StoryCloze and SALMon reaches 93-97% of the teacher's performance, outperforming size-matched baselines. These models are optimized for deployment on commodity hardware, enabling applications in real-time conversational agents, assistive technologies, and low-resource environments. We release models, training code, and evaluation scripts to support reproducible research on compact, expressive speech generation.
- Abstract(参考訳): 現在の音声言語モデルは、多くのデプロイメント環境のサイズやレイテンシの制約を超える。
層状蒸留, 隠れ状態のマッチング, 注意マップ, 軟化ロジットを用いて, 大規模マルチモーダル変圧器を3倍圧縮し, 性能損失を最小限に抑えることで, コンパクトかつ表現力のある音声生成モデルを構築した。
音声合成とインターリーブ音声テキスト生成のための2BパラメータモデルであるTinyWaveを5万時間公開音声で学習した。
TinyWaveがサポート
(i)音声的・表現的トークンを用いた音声のみの生成
(ii)混合音声テキスト継続。
Libri-Lightの評価では、TinyWaveは教師の1.4の正規化パープレキシティポイント内にある。
StoryClozeとSALMonの精度は、教師のパフォーマンスの93-97%に達し、サイズにマッチしたベースラインを上回っている。
これらのモデルはコモディティハードウェアへのデプロイに最適化されており、リアルタイムの会話エージェント、アシスト技術、低リソース環境へのアプリケーションを可能にする。
我々は、コンパクトで表現力のある音声生成における再現可能な研究を支援するために、モデル、トレーニングコード、評価スクリプトをリリースする。
関連論文リスト
- CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。