論文の概要: Controllable Speaking Styles Using a Large Language Model
- arxiv url: http://arxiv.org/abs/2305.10321v2
- Date: Tue, 19 Sep 2023 16:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 19:51:19.710954
- Title: Controllable Speaking Styles Using a Large Language Model
- Title(参考訳): 大型言語モデルを用いた制御可能な発話スタイル
- Authors: Atli Thor Sigurgeirsson, Simon King
- Abstract要約: Text-to-Speech (TTS) モデルは、同じターゲットテキストの複数の、韻律的に異なる変換を生成することができる。
現在、推論中にこれらのモデルを制御するには、一般的に適切な参照発話を見つける必要がある。
ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。
- 参考スコア(独自算出の注目度): 13.642358232817342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-based Text-to-Speech (TTS) models can generate multiple,
prosodically-different renditions of the same target text. Such models jointly
learn a latent acoustic space during training, which can be sampled from during
inference. Controlling these models during inference typically requires finding
an appropriate reference utterance, which is non-trivial.
Large generative language models (LLMs) have shown excellent performance in
various language-related tasks. Given only a natural language query text (the
prompt), such models can be used to solve specific, context-dependent tasks.
Recent work in TTS has attempted similar prompt-based control of novel speaking
style generation. Those methods do not require a reference utterance and can,
under ideal conditions, be controlled with only a prompt. But existing methods
typically require a prompt-labelled speech corpus for jointly training a
prompt-conditioned encoder.
In contrast, we instead employ an LLM to directly suggest prosodic
modifications for a controllable TTS model, using contextual information
provided in the prompt. The prompt can be designed for a multitude of tasks.
Here, we give two demonstrations: control of speaking style; prosody
appropriate for a given dialogue context. The proposed method is rated most
appropriate in 50% of cases vs. 31% for a baseline model.
- Abstract(参考訳): 参照ベースのText-to-Speech(TTS)モデルは、同じターゲットテキストの複数の、韻律的に異なる再帰を生成することができる。
このようなモデルは、トレーニング中に潜在音響空間を共同で学習し、推論中にサンプリングすることができる。
推論中にこれらのモデルを制御するには、通常、適切な参照発話を見つける必要がある。
大規模生成言語モデル(LLM)は様々な言語関連タスクにおいて優れた性能を示した。
自然言語クエリテキスト(プロンプト)のみを考えると、そのようなモデルは特定のコンテキスト依存のタスクを解決できる。
TTSにおける最近の研究は、新しい話し方生成の即興制御を試みている。
これらの手法は参照発話を必要とせず、理想的な条件下では、プロンプトのみで制御できる。
しかし、既存の方法は通常、プロンプト条件エンコーダを共同でトレーニングするために、プロンプトラベル音声コーパスを必要とする。
対照的に、プロンプトで提供されるコンテキスト情報を使用して、制御可能なttsモデルの韻律修正を直接提案するためにllmを用いる。
プロンプトは、さまざまなタスクのために設計できます。
ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。
提案手法は,50%のケースにおいて,ベースラインモデルの31%に対して最も適している。
関連論文リスト
- SpiRit-LM: Interleaved Spoken and Written Language Model [45.44798658207754]
SPIRIT-LMは、テキストと音声を自由に混合する基礎的マルチモーダル言語モデルである。
モデルは、事前訓練されたテキスト言語モデルに基づいており、テキストと音声ユニットで継続的にトレーニングすることで、音声モダリティに拡張する。
論文 参考訳(メタデータ) (2024-02-08T15:39:32Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。