論文の概要: Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
- arxiv url: http://arxiv.org/abs/2502.04128v1
- Date: Thu, 06 Feb 2025 15:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:23.024451
- Title: Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
- Title(参考訳): Llasa:Llamaに基づく音声合成のための列車時間と推論時間計算
- Authors: Zhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi DAI, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue,
- Abstract要約: 合成音声に対する列車時間と推論時間計算のスケーリングについて検討する。
実験の結果,Llasa における列車時間計算のスケーリングは,合成音声の自然な性質を常に向上させることがわかった。
探索中に音声理解モデルを検証者として使用し、推論時間のスケーリングによってサンプリングモードが特定の検証者の好みにシフトすることを発見した。
- 参考スコア(独自算出の注目度): 44.66079122409392
- License:
- Abstract: Recent advances in text-based large language models (LLMs), particularly in the GPT series and the o1 model, have demonstrated the effectiveness of scaling both training-time and inference-time compute. However, current state-of-the-art TTS systems leveraging LLMs are often multi-stage, requiring separate models (e.g., diffusion models after LLM), complicating the decision of whether to scale a particular model during training or testing. This work makes the following contributions: First, we explore the scaling of train-time and inference-time compute for speech synthesis. Second, we propose a simple framework Llasa for speech synthesis that employs a single-layer vector quantizer (VQ) codec and a single Transformer architecture to fully align with standard LLMs such as Llama. Our experiments reveal that scaling train-time compute for Llasa consistently improves the naturalness of synthesized speech and enables the generation of more complex and accurate prosody patterns. Furthermore, from the perspective of scaling inference-time compute, we employ speech understanding models as verifiers during the search, finding that scaling inference-time compute shifts the sampling modes toward the preferences of specific verifiers, thereby improving emotional expressiveness, timbre consistency, and content accuracy. In addition, we released the checkpoint and training code for our TTS model (1B, 3B, 8B) and codec model publicly available.
- Abstract(参考訳): テキストベース大規模言語モデル(LLM)の最近の進歩、特にGPTシリーズとo1モデルでは、トレーニング時間と推論時間の両方をスケールする効果が示されている。
しかしながら、現在の最先端 TTS システムは、LLM を利用する場合、しばしばマルチステージであり、個別のモデル(例えば LLM 以降の拡散モデル)が必要であり、トレーニングやテスト中に特定のモデルをスケールするかという決定を複雑にしている。
まず、音声合成のための列車時間と推論時間計算のスケーリングについて検討する。
第2に,単一層ベクトル量子化器(VQ)コーデックと単一トランスフォーマーアーキテクチャを用いた音声合成用Llasaを提案する。
実験の結果,Llasaの列車時間計算のスケーリングは音声合成の自然な性質を常に改善し,より複雑で正確な韻律パターンの生成を可能にすることがわかった。
さらに、推測時間計算のスケーリングの観点から、探索中に音声理解モデルを用いて、推測時間計算のスケーリングはサンプリングモードを特定の検証者の好みにシフトさせ、感情表現性、音色整合性、内容精度を向上させる。
さらに、TSモデル(1B、3B、8B)とコーデックモデルのチェックポイントとトレーニングコードも公開しました。
関連論文リスト
- Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method [9.412920379798928]
時系列モデリングは多くの実世界のアプリケーションにおいて重要な意味を持つ。
我々は時系列と自然言語のモダリティを調整するためのTime-LlaMAフレームワークを提案する。
本稿では,提案手法がSOTA(State-of-the-art)性能を実現することを示す。
論文 参考訳(メタデータ) (2025-02-19T13:52:26Z) - Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - LLM-TS Integrator: Integrating LLM for Enhanced Time Series Modeling [5.853711797849859]
天気予報や異常検出などの動的システムでは時系列モデリングが不可欠である。
近年,大規模言語モデル(LLM)をTSモデリングに利用し,その強力なパターン認識機能を活用している。
論文 参考訳(メタデータ) (2024-10-21T20:29:46Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。