論文の概要: Perception of prosodic variation for speech synthesis using an
unsupervised discrete representation of F0
- arxiv url: http://arxiv.org/abs/2003.06686v1
- Date: Sat, 14 Mar 2020 19:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 19:53:18.228505
- Title: Perception of prosodic variation for speech synthesis using an
unsupervised discrete representation of F0
- Title(参考訳): F0の教師なし離散表現を用いた音声合成における韻律変化の知覚
- Authors: Zack Hodari, Catherine Lai, Simon King
- Abstract要約: 英語では、韻律はセグメント列に幅広い情報を加える。
音声合成音声における韻律制御の学習において,どのような制御が行われているのかは明らかになっていない。
モーメントセンタを「イントネーションコード」として,複数モーダル先行の句レベルの変分自動エンコーダを提案する。
- 参考スコア(独自算出の注目度): 19.50859586855605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In English, prosody adds a broad range of information to segment sequences,
from information structure (e.g. contrast) to stylistic variation (e.g.
expression of emotion). However, when learning to control prosody in
text-to-speech voices, it is not clear what exactly the control is modifying.
Existing research on discrete representation learning for prosody has
demonstrated high naturalness, but no analysis has been performed on what these
representations capture, or if they can generate meaningfully-distinct variants
of an utterance. We present a phrase-level variational autoencoder with a
multi-modal prior, using the mode centres as "intonation codes". Our evaluation
establishes which intonation codes are perceptually distinct, finding that the
intonation codes from our multi-modal latent model were significantly more
distinct than a baseline using k-means clustering. We carry out a follow-up
qualitative study to determine what information the codes are carrying. Most
commonly, listeners commented on the intonation codes having a statement or
question style. However, many other affect-related styles were also reported,
including: emotional, uncertain, surprised, sarcastic, passive aggressive, and
upset.
- Abstract(参考訳): 英語では、韻律は、情報構造(例:コントラスト)から様式的変化(例:感情表現)まで、セグメントシーケンスに幅広い情報を追加する。
しかし,音声合成音声における韻律の制御を学習する場合,その制御がどう変化しているかは明らかになっていない。
プロソディのための離散表現学習に関する既存の研究は、高い自然性を示しているが、これらの表現が何をキャプチャするか、あるいは発話の有意に異なる変種を生成できるかは分析されていない。
モーメントセンタを「イントネーションコード」として,複数モーダル前の句レベルの変分自動エンコーダを提案する。
評価の結果,マルチモーダル潜在モデルからのイントネーション符号は,k平均クラスタリングを用いたベースラインとは大きく異なることがわかった。
我々は、コードがどの情報を持っているかを決定するために、後続の質的研究を行う。
最も一般的なリスナーは、発言や質問スタイルを持つイントネーションコードについてコメントした。
しかし、感情的、不確実、驚き、皮肉、攻撃的、動揺など、他の多くの感情関連スタイルも報告された。
関連論文リスト
- Non-verbal information in spontaneous speech -- towards a new framework
of analysis [0.5559722082623594]
本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。
3つの順序の韻律現象を解き放つ分類過程を示す。
散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
論文 参考訳(メタデータ) (2024-03-06T08:03:05Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Evaluating context-invariance in unsupervised speech representations [15.67794428589585]
現在のベンチマークでは文脈不変性は測定されていない。
我々は文脈不変性を測定するZeroSpeech ABXベンチマークの新バージョンを開発する。
表現の文脈依存性は単語レベルの表現の安定性の予測であることを示す。
論文 参考訳(メタデータ) (2022-10-27T21:15:49Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Learning De-identified Representations of Prosody from Raw Audio [7.025418443146435]
コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
我々は韻律の自然な構造を利用して音節情報を最小化し、韻律を話者表現から切り離す。
論文 参考訳(メタデータ) (2021-07-17T14:37:25Z) - Learning Interpretable and Discrete Representations with Adversarial
Training for Unsupervised Text Classification [87.28408260725138]
TIGANは、テキストを離散コードと連続ノイズを含む2つの非絡み合った表現にエンコードすることを学ぶ。
抽出したトピックの単語は,TIGANが一貫性と高度に解釈可能なトピックを学習していることを示している。
論文 参考訳(メタデータ) (2020-04-28T02:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。