論文の概要: Improved disentangled speech representations using contrastive learning
in factorized hierarchical variational autoencoder
- arxiv url: http://arxiv.org/abs/2211.08191v2
- Date: Wed, 14 Jun 2023 07:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:16:18.590119
- Title: Improved disentangled speech representations using contrastive learning
in factorized hierarchical variational autoencoder
- Title(参考訳): 因子化階層型変分オートエンコーダにおけるコントラスト学習による不等角化音声表現の改善
- Authors: Yuying Xie, Thomas Arildsen, Zheng-Hua Tan
- Abstract要約: acrlongfhvae (acrshortfhvae) は、話者のアイデンティティと内容を象徴するために異なる潜伏変数を使用する。
我々は、同じ話者を表現する際に話者識別変数を集合させるために、対照的な学習をフレームワークに導入する。
提案手法は,acrshortfhvaeに比べて話者識別とコンテンツ特徴抽出の両面で改善し,変換のベースラインよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 16.043725024443596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the fact that speaker identity and content vary on different time
scales, \acrlong{fhvae} (\acrshort{fhvae}) uses different latent variables to
symbolize these two attributes. Disentanglement of these attributes is carried
out by different prior settings of the corresponding latent variables. For the
prior of speaker identity variable, \acrshort{fhvae} assumes it is a Gaussian
distribution with an utterance-scale varying mean and a fixed variance. By
setting a small fixed variance, the training process promotes identity
variables within one utterance gathering close to the mean of their prior.
However, this constraint is relatively weak, as the mean of the prior changes
between utterances. Therefore, we introduce contrastive learning into the
\acrshort{fhvae} framework, to make the speaker identity variables gathering
when representing the same speaker, while distancing themselves as far as
possible from those of other speakers. The model structure has not been changed
in this work but only the training process, thus no additional cost is needed
during testing. Voice conversion has been chosen as the application in this
paper. Latent variable evaluations include speaker verification and
identification for the speaker identity variable, and speech recognition for
the content variable. Furthermore, assessments of voice conversion performance
are on the grounds of fake speech detection experiments. Results show that the
proposed method improves both speaker identity and content feature extraction
compared to \acrshort{fhvae}, and has better performance than baseline on
conversion.
- Abstract(参考訳): 話者のアイデンティティと内容が異なる時間スケールで異なるという事実を活用すると、 \acrlong{fhvae} (\acrshort{fhvae}) は2つの属性を象徴するために異なる潜在変数を使用する。
これらの属性の切り離しは、対応する潜在変数の異なる事前設定によって実行される。
話者同一性変数の事前について、 \acr short{fhvae} は、発話スケールの変化平均と固定分散を持つガウス分布であると仮定する。
トレーニングプロセスは、小さな一定の分散を設定することにより、先行する平均に近い1つの発話におけるアイデンティティ変数を促進する。
しかし、この制約は、発話間の先行的な変化の平均として比較的弱い。
そこで,本研究では,同じ話者を表す場合の話者識別変数を,他の話者と可能な限り距離を置けるようにするために,コントラスト学習を<acrshort{fhvae} フレームワークに導入する。
この作業ではモデル構造は変更されていないが、トレーニングプロセスのみであるため、テスト中に追加のコストは必要ない。
本論文の応用例として音声変換が選択されている。
潜在変数評価には、話者識別変数の話者検証と識別、コンテンツ変数の音声認識が含まれる。
さらに, 偽音声検出実験の結果から, 音声変換性能の評価を行った。
その結果,提案手法は<acrshort{fhvae}と比較して話者識別とコンテンツ特徴抽出の両面で改善し,変換のベースラインよりも優れた性能を示した。
関連論文リスト
- SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:14:26Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。