論文の概要: Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment
- arxiv url: http://arxiv.org/abs/2406.17957v1
- Date: Tue, 25 Jun 2024 22:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:07:42.437804
- Title: Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment
- Title(参考訳): 単調アライメント学習によるLLM音声合成のロバスト性向上
- Authors: Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Rafael Valle, Rohan Badlani, Boris Ginsburg,
- Abstract要約: 大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
- 参考スコア(独自算出の注目度): 19.48653924804823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) based text-to-speech (TTS) systems have demonstrated remarkable capabilities in handling large speech datasets and generating natural speech for new speakers. However, LLM-based TTS models are not robust as the generated output can contain repeating words, missing words and mis-aligned speech (referred to as hallucinations or attention errors), especially when the text contains multiple occurrences of the same token. We examine these challenges in an encoder-decoder transformer model and find that certain cross-attention heads in such models implicitly learn the text and speech alignment when trained for predicting speech tokens for a given text. To make the alignment more robust, we propose techniques utilizing CTC loss and attention priors that encourage monotonic cross-attention over the text tokens. Our guided attention training technique does not introduce any new learnable parameters and significantly improves robustness of LLM-based TTS models.
- Abstract(参考訳): 大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、特にテキストが同じトークンの複数の発生を含む場合、生成した出力が繰り返し単語、欠落した単語、不一致したスピーチ(幻覚や注意の誤りとして参照される)を含むため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
このアライメントをより堅牢にするために,テキストトークンに対するモノトニックなクロスアテンションを促進するCTC損失とアテンション前処理を利用する手法を提案する。
本手法は学習可能な新しいパラメータを導入せず,LSMに基づくTSモデルのロバスト性を大幅に向上させる。
関連論文リスト
- DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Enhancing the Stability of LLM-based Speech Generation Systems through
Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。
テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。
結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T15:08:19Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。