論文の概要: Disentangling Prosody Representations with Unsupervised Speech
Reconstruction
- arxiv url: http://arxiv.org/abs/2212.06972v1
- Date: Wed, 14 Dec 2022 01:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 17:37:27.572578
- Title: Disentangling Prosody Representations with Unsupervised Speech
Reconstruction
- Title(参考訳): 教師なし音声再構成を用いたディエンタングリング韻律表現
- Authors: Leyuan Qu, Taihao Li, Cornelius Weber, Theresa Pekarek-Rosin, Fuji Ren
and Stefan Wermter
- Abstract要約: 本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。
具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
- 参考スコア(独自算出の注目度): 18.258935038843145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human speech can be characterized by different components, including semantic
content, speaker identity and prosodic information. Significant progress has
been made in disentangling representations for semantic content and speaker
identity in Automatic Speech Recognition (ASR) and speaker verification tasks
respectively. However, it is still an open challenging research question to
extract prosodic information because of the intrinsic association of different
attributes, such as timbre and rhythm, and because of the need for unsupervised
training schemes to achieve robust large-scale and speaker-independent ASR. The
aim of this paper is to address the disentanglement of emotional prosody from
speech based on unsupervised reconstruction. Specifically, we identify, design,
implement and integrate three crucial components in our proposed speech
reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech
signals into discrete units for semantic content, (2) a pretrained speaker
verification model to generate speaker identity embeddings, and (3) a trainable
prosody encoder to learn prosody representations. We first pretrain the
Prosody2Vec representations on unlabelled emotional speech corpora, then
fine-tune the model on specific datasets to perform Speech Emotion Recognition
(SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective
evaluations on the EVC task suggest that Prosody2Vec effectively captures
general prosodic features that can be smoothly transferred to other emotional
speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the
prosody features learned by Prosody2Vec are complementary and beneficial for
the performance of widely used speech pretraining models and surpass the
state-of-the-art methods when combining Prosody2Vec with HuBERT
representations. Some audio samples can be found on our demo website.
- Abstract(参考訳): 人間の発話は、意味内容、話者のアイデンティティ、韻律情報など、様々な要素によって特徴づけられる。
自動音声認識(ASR)と話者検証タスクにおいて,意味内容の表現と話者識別を分離する上で重要な進歩が見られた。
しかし、音色やリズムなどの異なる属性の固有の関連性や、大規模で話者に依存しないASRを実現するための教師なしのトレーニングスキームの必要性から、韻律情報を抽出することは依然としてオープンな研究課題である。
本研究の目的は,教師なしの再構築に基づく音声からの感情的韻律の偏りを解消することである。
具体的には,(1)音声信号をセマンティクスコンテンツの離散単位に変換する単位エンコーダ,(2)話者識別埋め込みを生成する事前学習型話者検証モデル,(3)韻律表現を学習する訓練可能な韻律エンコーダ,の3つの重要な構成要素を特定し,設計,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
EVCタスクにおける客観的および主観的評価は、Prosody2Vecが他の感情音声にスムーズに伝達できる一般的な韻律的特徴を効果的に捉えることを示唆している。
さらに,IEMOCAPデータセット上でのSER実験により,Prosody2Vecが学習した韻律特徴が,広く使用されている事前学習モデルの性能に相補的で有益であること,Prosody2Vecと HuBERT表現を組み合わせる際の最先端手法を超越していることが明らかになった。
いくつかのオーディオサンプルは、私たちのデモwebサイトにある。
関連論文リスト
- Exploring VQ-VAE with Prosody Parameters for Speaker Anonymization [0.5497663232622965]
本稿ではベクトル量子変分自動エンコーダ(VQ-VAE)に基づくエンドツーエンドネットワークを用いた話者匿名化手法について検討する。
言語的・感情的な内容を保持しながら、話者のアイデンティティを特に標的にし、修正するためにこれらのコンポーネントをアンタングルするように設計されている。
この手法は感情情報の保存において,ほとんどのベースライン技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T08:55:10Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。