論文の概要: Scaling Properties of Continuous Diffusion Spoken Language Models
- arxiv url: http://arxiv.org/abs/2604.24416v1
- Date: Mon, 27 Apr 2026 12:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.005419
- Title: Scaling Properties of Continuous Diffusion Spoken Language Models
- Title(参考訳): 連続拡散音声言語モデルのスケーリング特性
- Authors: Jason Ramapuram, Eeshan Gunesh Dhekane, Amitis Shidani, Dan Busbridge, Bogdan Mazoure, Zijin Gu, Russ Webb, Tatiana Likhomanenko, Navdeep Jaitly,
- Abstract要約: 音声のみの音声言語モデル(SLM)は、テキストモデルとテキスト音声モデルのパフォーマンスに遅れがある。
最近の離散自己回帰(AR)SLMは、テキストモデルにマッチする重要な計算とデータ要求を示している。
本稿では,SLMの言語的品質を定量化するために,音素のJensen-Shannon divergence(pJSD)指標を紹介する。
- 参考スコア(独自算出の注目度): 25.864710231019483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-only spoken language models (SLMs) lag behind text and text-speech models in performance, with recent discrete autoregressive (AR) SLMs indicating significant computational and data demands to match text models. Since discretizing continuous speech for AR creates bottlenecks, we explore whether continuous diffusion (CD) SLM is more viable. To quantify the SLMs linguistic quality, we introduce the phoneme Jensen-Shannon divergence (pJSD) metric. Our analysis reveals CD SLMs, mirroring AR behavior, exhibit scaling laws for validation loss and pJSD, and show optimal token-to-parameter ratios decreasing as compute scales. However, for the latter, loss becomes insensitive to choice of data and model sizes, showing potential for fast inference. Scaling CD SLMs to 16B parameters with tens of millions of hours of conversational data enables generation of emotive, prosodic, multi-speaker, multilingual speech, though achieving long-form coherence remains a significant challenge.
- Abstract(参考訳): 音声のみの音声言語モデル(SLM)は、テキストモデルとテキスト音声モデルに遅れをとっており、最近の離散自己回帰(AR)SLMは、テキストモデルにマッチする重要な計算とデータ要求を示している。
連続音声の認識がボトルネックを生じさせるので、連続拡散(CD)SLMがより有効かどうかを考察する。
本稿では,SLMの言語的品質を定量化するために,音素のJensen-Shannon divergence(pJSD)指標を紹介する。
本分析では,CD SLM,AR動作のミラーリング,検証損失とpJSDのスケーリング法則を示し,計算規模に応じて最適なトークンとパラメータの比率が低下することを示す。
しかし、後者の場合、損失はデータの選択やモデルのサイズに敏感になり、高速な推論の可能性を示す。
数千万時間に及ぶ会話データを用いて、CD SLMを16Bパラメータにスケールすることは、動機的、韻律的、多話者、多言語音声の生成を可能にするが、長い形式のコヒーレンスを達成することは大きな課題である。
関連論文リスト
- Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling [52.02344262645619]
本稿では,新しいトランス層を凍結テキストLLMに挿入し,付加層のみを音声データに基づいて訓練するマルチモーダル深さアップスケーリングを提案する。
SmolLM2-360MとSmolLM2-1.7Bによる48k時間の英語自動音声認識(ASR)データによる実験により、深度アップスケーリングは完全な微調整に匹敵するASRを実現することが示された。
さらに,テキストの劣化を75%以上低減し,トレーニング可能なパラメータを60%少なく抑えながら,大規模モデルの完全微調整に適合あるいは超越したASRを実現するために,音声認識用に設計されたアーキテクチャであるE-Branchformerを組み込むことが示される。
論文 参考訳(メタデータ) (2026-04-01T05:16:06Z) - SLM-SS: Speech Language Model for Generative Speech Separation [47.06391017558454]
音声分離に言語モデルを適用する新しいアプローチであるSLM-SSを提案する。
我々は,SSを個別のマルチコードブックシーケンス生成とみなし,量子化音声混合物をターゲットトークンにマッピングするコーダモデルを用いた。
提案手法は, 音声の理解度を著しく向上させ, 様々な下流課題における言語的整合性を向上させる。
論文 参考訳(メタデータ) (2026-01-27T12:22:43Z) - Reproducing and Dissecting Denoising Language Models for Speech Recognition [31.91567892562116]
音声認識(ASR)のための従来の言語モデル(LM)に代わる強力な代替手段として、DLM(Denoising Language Model)が提案されている。
本稿では,DLMの大規模独立研究について述べる。
論文 参考訳(メタデータ) (2025-12-15T17:33:22Z) - Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (2025-12-11T17:54:10Z) - Scaling Analysis of Interleaved Speech-Text Language Models [22.61336359340435]
既存の音声言語モデル(SLM)のスケーリング分析は、SLMがテキストよりもはるかに多くの計算とデータを必要とすることを予測している。
現代のSLMは、知識伝達を可能にするために、音声テキストインターリーブを用いて事前訓練されたTextLMから初期化されることが多い。
我々は,数ダースをトレーニングし,スケーリングの傾向を分析することで,インターリーブSLMのスケーリング分析を行う。
以上の結果から,大規模化モデルでは先行モデルに匹敵するセマンティック音声性能が得られ,計算量やデータ量が少ないことが示唆された。
論文 参考訳(メタデータ) (2025-04-03T08:46:56Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。