論文の概要: Improved disentangled speech representations using contrastive learning
in factorized hierarchical variational autoencoder
- arxiv url: http://arxiv.org/abs/2211.08191v1
- Date: Tue, 15 Nov 2022 14:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:54:43.860335
- Title: Improved disentangled speech representations using contrastive learning
in factorized hierarchical variational autoencoder
- Title(参考訳): 因子化階層型変分オートエンコーダにおけるコントラスト学習による不等角化音声表現の改善
- Authors: Yuying Xie, Thomas Arildsen, Zheng-Hua Tan
- Abstract要約: acrlongfhvae(acrshortfhvae)は、逐次潜在変数とセグメント潜在変数を使用して、話者のアイデンティティと内容を象徴する。
話者とコンテンツを表す潜伏変数は、シーケンス依存およびシーケンス非依存の先行に従わなければならない。
実験結果から, 提案手法は, acrshortfhvaeに比べて逐次的特徴抽出と分節的特徴抽出を両立し, 音声変換性能を適度に向上することがわかった。
- 参考スコア(独自算出の注目度): 16.043725024443596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By utilizing the fact that speaker identity and content vary on different
time scales, \acrlong{fhvae} (\acrshort{fhvae}) uses a sequential latent
variable and a segmental latent variable to symbolize these two attributes.
Disentanglement is carried out by assuming the latent variables representing
speaker and content follow sequence-dependent and sequence-independent priors.
For the sequence-dependent prior, \acrshort{fhvae} assumes a Gaussian
distribution with an utterance-scale varying mean and a fixed small variance.
The training process promotes sequential variables getting close to the mean of
its prior with small variance. However, this constraint is relatively weak.
Therefore, we introduce contrastive learning in the \acrshort{fhvae} framework.
The proposed method aims to make the sequential variables clustering when
representing the same speaker, while distancing themselves as far as possible
from those of other speakers. The structure of the framework has not been
changed in the proposed method but only the training process, thus no more cost
is needed during test. Voice conversion has been chosen as the application in
this paper. Latent variable evaluations include speakerincrease verification
and identification for the sequential latent variable, and speech recognition
for the segmental latent variable. Furthermore, assessments of voice conversion
performance are on the grounds of speaker verification and speech recognition
experiments. Experiment results show that the proposed method improves both
sequential and segmental feature extraction compared with \acrshort{fhvae}, and
moderately improved voice conversion performance.
- Abstract(参考訳): 話者のアイデンティティと内容が異なる時間スケールで異なるという事実を利用して、 \acrlong{fhvae} (\acrshort{fhvae}) は2つの属性を象徴するために逐次潜在変数とセグメント潜在変数を使用する。
話者とコンテンツを表す潜伏変数は、シーケンス依存およびシーケンス非依存の先行に従わなければならない。
シーケンス依存前もって、\acr short{fhvae} は発話スケールの変化平均と固定された小さな分散を持つガウス分布を仮定する。
トレーニングプロセスは、小さなばらつきで事前値の平均に近づいたシーケンシャル変数を促進する。
しかし、この制約は比較的弱い。
そこで我々は,<acrshort{fhvae} フレームワークでコントラスト学習を導入する。
提案手法は,同じ話者を表す場合の逐次変数のクラスタリングを,他の話者と可能な限り距離を置いて行うことを目的としている。
提案手法ではフレームワークの構造は変更されていないが, トレーニングプロセスのみであり, テスト中にそれ以上のコストがかからない。
本論文の応用例として音声変換が選択されている。
潜在変数評価には、逐次潜在変数に対する話者増分検証と識別、セグメント潜在変数に対する音声認識が含まれる。
さらに,話者照合と音声認識実験の結果から,音声変換性能の評価を行った。
実験結果から,提案手法は<acrshort{fhvae}と比較して逐次的特徴抽出とセグメント的特徴抽出を両立し,声質変換性能を適度に改善した。
関連論文リスト
- SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:14:26Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。