論文の概要: Do Prosody Transfer Models Transfer Prosody?
- arxiv url: http://arxiv.org/abs/2303.04289v1
- Date: Tue, 7 Mar 2023 23:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:37:04.169187
- Title: Do Prosody Transfer Models Transfer Prosody?
- Title(参考訳): 韻律伝達モデルは韻律伝達か?
- Authors: Atli Thor Sigurgeirsson, Simon King
- Abstract要約: テキスト音声合成のための最近のモデルでは、参照発話の韻律を生成されたターゲット音声に転送することを目的としている。
我々は、訓練中に異なるが、韻律的にも関係のある発話を使用することも提案する。
これらの条件下で訓練されたモデルは、目標発話を基準として訓練されたモデルよりも大幅に性能が低下することを示す。
- 参考スコア(独自算出の注目度): 18.537269415276313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Some recent models for Text-to-Speech synthesis aim to transfer the prosody
of a reference utterance to the generated target synthetic speech. This is done
by using a learned embedding of the reference utterance, which is used to
condition speech generation. During training, the reference utterance is
identical to the target utterance. Yet, during synthesis, these models are
often used to transfer prosody from a reference that differs from the text or
speaker being synthesized.
To address this inconsistency, we propose to use a different, but
prosodically-related, utterance during training too. We believe this should
encourage the model to learn to transfer only those characteristics that the
reference and target have in common. If prosody transfer methods do indeed
transfer prosody they should be able to be trained in the way we propose.
However, results show that a model trained under these conditions performs
significantly worse than one trained using the target utterance as a reference.
To explain this, we hypothesize that prosody transfer models do not learn a
transferable representation of prosody, but rather an utterance-level
representation which is highly dependent on both the reference speaker and
reference text.
- Abstract(参考訳): 最近のテキスト音声合成モデルは、参照発話の韻律を生成対象合成音声に転送することを目的としている。
これは、音声生成の条件付けに使用される基準発話の学習的な埋め込みを用いて行われる。
訓練中は、基準発話は対象発話と同一である。
しかし、合成中、これらのモデルは、合成されるテキストや話者とは異なる参照から韻律を転送するためにしばしば使用される。
この矛盾に対処するために、トレーニング中に異なる、しかし韻律的に関連した発話を使うように提案する。
これはモデルに、参照とターゲットが共通している特性のみを転送することを学ぶように促すべきだと考えています。
韻律伝達法が実際に韻律を転送するなら、我々が提案する方法で訓練できるはずである。
しかし,これらの条件下で訓練したモデルでは,対象発話を基準として訓練したモデルよりも有意に性能が低下することが示唆された。
これを説明するために、韻律伝達モデルが韻律の伝達可能な表現を学習するのではなく、参照話者と参照テキストの両方に大きく依存する発話レベル表現を仮定する。
関連論文リスト
- A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer [1.680461336282617]
Text-To-Speech (TTS) の韻律変換モデルでは、参照発話を条件付けすることで、同じテキストに対して様々な韻律変換を生成することができる。
しかし、テキスト間の韻律伝達のように、参照発話が対象のテキストと異なる場合、これらのモデルは韻律をテキストから切り離すのに苦労し、結果として自然性が低下する。
本稿では,提案するHitL(Human-in-the-Loop)アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-06T14:01:53Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Non-Parallel Text Style Transfer with Self-Parallel Supervision [19.441780035577352]
大規模言語モデルに基づく新しいテキストスタイル転送フレームワークであるLaMerを提案する。
LaMerはまず、シーングラフで非並列データセットのほぼ並列表現をマイニングし、続いてMLEトレーニングを使用し、続いて模倣学習の改良を行い、データ内の本質的な並列性を活用する。
2つのベンチマークタスク(センチメントとフォーマル性転送)と、新たに提案された課題タスク(政治的スタンス転送)において、我々のモデルは、転送精度、コンテンツ保存および流速の質的な進歩を達成する。
論文 参考訳(メタデータ) (2022-04-18T01:38:35Z) - Fine-Tuning Transformers: Vocabulary Transfer [0.30586855806896046]
トランスフォーマーは、近年の自然言語処理の進歩の大部分を担っている。
本稿では,微調整に用いるコーパス固有のトークン化により,モデルの性能が向上するかどうかについて検討する。
論文 参考訳(メタデータ) (2021-12-29T14:22:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Transductive Learning for Unsupervised Text Style Transfer [60.65782243927698]
教師なしスタイル転送モデルは、主に帰納的学習アプローチに基づいている。
本稿では,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:57:20Z) - Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T02:43:57Z) - Semi-supervised Formality Style Transfer using Language Model
Discriminator and Mutual Information Maximization [52.867459839641526]
フォーマル・スタイル・トランスファー(英: Formality style transfer)とは、非公式な文を文法的に正しい形式文に変換するタスクである。
本稿では,言語モデルに基づく識別器を用いて,文が形式的である確率を最大化する半教師付き形式表現スタイル転送モデルを提案する。
実験の結果,我々のモデルは,自動計測と人的判断の両面で,従来の最先端のベースラインを著しく上回りました。
論文 参考訳(メタデータ) (2020-10-10T21:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。