論文の概要: Using a Large Language Model to Control Speaking Style for Expressive
TTS
- arxiv url: http://arxiv.org/abs/2305.10321v1
- Date: Wed, 17 May 2023 16:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:04:33.629434
- Title: Using a Large Language Model to Control Speaking Style for Expressive
TTS
- Title(参考訳): 大規模言語モデルを用いた表現型TSの話し方制御
- Authors: Atli Thor Sigurgeirsson, Simon King
- Abstract要約: 非表現的コーパス上でTSモデルをトレーニングし、ピッチ、エネルギー、持続時間の変化を言語モデルに提案する。
提案手法はベースラインモデルの31.0%に比べて49.9%のケースで最も適している。
- 参考スコア(独自算出の注目度): 18.537269415276313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appropriate prosody is critical for successful spoken communication.
Contextual word embeddings are proven to be helpful in predicting prosody but
do not allow for choosing between plausible prosodic renditions.
Reference-based TTS models attempt to address this by conditioning speech
generation on a reference speech sample. These models can generate expressive
speech but this requires finding an appropriate reference.
Sufficiently large generative language models have been used to solve various
language-related tasks. We explore whether such models can be used to suggest
appropriate prosody for expressive TTS. We train a TTS model on a
non-expressive corpus and then prompt the language model to suggest changes to
pitch, energy and duration. The prompt can be designed for any task and we
prompt the model to make suggestions based on target speaking style and
dialogue context. The proposed method is rated most appropriate in 49.9\% of
cases compared to 31.0\% for a baseline model.
- Abstract(参考訳): 音声コミュニケーションの成功には適切な韻律が不可欠である。
文脈単語の埋め込みは韻律を予測するのに有用であることが証明されているが、もっともらしい韻律の相互選択はできない。
参照に基づくttsモデルは、参照音声サンプル上の条件付き音声生成によってこの問題に対処しようとする。
これらのモデルは表現型音声を生成することができるが、適切な参照を見つける必要がある。
十分大規模な生成言語モデルが様々な言語関連タスクの解決に使われてきた。
このようなモデルを用いて, 表現型TSの適切な韻律を提案できるかどうかを検討する。
非表現的コーパス上でTSモデルをトレーニングし、その後、ピッチ、エネルギー、持続時間の変化を言語モデルに提案する。
プロンプトは任意のタスク用に設計でき、ターゲットの発話スタイルと対話コンテキストに基づいてモデルに提案するように促します。
提案手法はベースラインモデルの31.0\%に対して49.9\%の場合に最も適している。
関連論文リスト
- TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。