論文の概要: Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
- arxiv url: http://arxiv.org/abs/2505.13181v1
- Date: Mon, 19 May 2025 14:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.658789
- Title: Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
- Title(参考訳): 連続潜時空間におけるエネルギー距離による効率的な音声言語モデリング
- Authors: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang,
- Abstract要約: 本稿では、音声波形を連続的な潜在表現の列に符号化することで、音声言語モデリングの代替手法であるSLEDを紹介する。
SLEDは離散化エラーを回避し、既存の言語モデルに共通する複雑な階層アーキテクチャの必要性を排除する。
実験結果から,SLEDはゼロショット音声合成とストリーミング音声合成の両方において高い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 78.48611303387118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SLED, an alternative approach to speech language modeling by encoding speech waveforms into sequences of continuous latent representations and modeling them autoregressively using an energy distance objective. The energy distance offers an analytical measure of the distributional gap by contrasting simulated and target samples, enabling efficient training to capture the underlying continuous autoregressive distribution. By bypassing reliance on residual vector quantization, SLED avoids discretization errors and eliminates the need for the complicated hierarchical architectures common in existing speech language models. It simplifies the overall modeling pipeline while preserving the richness of speech information and maintaining inference efficiency. Empirical results demonstrate that SLED achieves strong performance in both zero-shot and streaming speech synthesis, showing its potential for broader applications in general-purpose speech language models.
- Abstract(参考訳): SLEDは,音声波形を連続的な潜在表現列に符号化し,エネルギー距離目標を用いて自己回帰的にモデル化することで,音声認識モデリングの代替手法である。
エネルギー距離は、模擬サンプルと対象サンプルとの対比による分布ギャップの分析尺度を提供し、基礎となる連続自己回帰分布を効果的に捉えることができる。
残差ベクトル量子化への依存を回避することにより、SLEDは離散化エラーを回避し、既存の言語モデルに共通する複雑な階層的アーキテクチャの必要性を排除する。
音声情報の豊かさを保ち、推論効率を保ちながら、全体的なモデリングパイプラインを単純化する。
実験により,SLEDはゼロショット音声合成とストリーミング音声合成の両方において高い性能を示し,汎用言語モデルにおける幅広い応用の可能性を示している。
関連論文リスト
- DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation [24.85655658070008]
Diffusion Transformer Autoregressive Modeling (DiTAR)は、言語モデルと拡散トランスフォーマーを組み合わせたパッチベースの自動回帰フレームワークである。
ゼロショット音声生成において、DiTARは、ロバスト性、話者類似性、自然性において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-06T10:09:49Z) - Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency [0.0]
Semantic Layered Embedding Diffusion (SLED) メカニズムは、トランスフォーマーベースのアーキテクチャにおける階層的セマンティクスの表現を再定義する。
スペクトル解析に基づく多層拡散プロセスを導入することにより、大域的および局所的セマンティックコヒーレンスの間の複雑なバランスを実現する。
実験結果は、様々な領域で効果的に適応するメカニズムの能力を強調し、パープレキシティとBLEUスコアを著しく改善した。
論文 参考訳(メタデータ) (2025-01-26T05:17:04Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。