論文の概要: GlowVC: Mel-spectrogram space disentangling model for
language-independent text-free voice conversion
- arxiv url: http://arxiv.org/abs/2207.01454v1
- Date: Mon, 4 Jul 2022 14:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 13:26:25.383112
- Title: GlowVC: Mel-spectrogram space disentangling model for
language-independent text-free voice conversion
- Title(参考訳): glowvc:言語非依存音声変換のためのメル・スペクトログラム空間分割モデル
- Authors: Magdalena Proszewska, Grzegorz Beringer, Daniel S\'aez-Trigueros,
Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote
- Abstract要約: 私たちはGlow-TTSの上に構築し、VC推論に使用することなく、トレーニング中に言語機能の使用を可能にするアーキテクチャを提供します。
GlowVC-conditionalとGlowVC-explicitの2つのバージョンについて検討する。
我々は,見知らぬ言語における言語内および言語間変換の可知性,話者類似性,自然性の観点から,我々のモデルを評価した。
- 参考スコア(独自算出の注目度): 7.165643818869878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose GlowVC: a multilingual multi-speaker flow-based
model for language-independent text-free voice conversion. We build on
Glow-TTS, which provides an architecture that enables use of linguistic
features during training without the necessity of using them for VC inference.
We consider two versions of our model: GlowVC-conditional and GlowVC-explicit.
GlowVC-conditional models the distribution of mel-spectrograms with
speaker-conditioned flow and disentangles the mel-spectrogram space into
content- and pitch-relevant dimensions, while GlowVC-explicit models the
explicit distribution with unconditioned flow and disentangles said space into
content-, pitch- and speaker-relevant dimensions. We evaluate our models in
terms of intelligibility, speaker similarity and naturalness for intra- and
cross-lingual conversion in seen and unseen languages. GlowVC models greatly
outperform AutoVC baseline in terms of intelligibility, while achieving just as
high speaker similarity in intra-lingual VC, and slightly worse in the
cross-lingual setting. Moreover, we demonstrate that GlowVC-explicit surpasses
both GlowVC-conditional and AutoVC in terms of naturalness.
- Abstract(参考訳): 本稿では,言語に依存しない音声変換のための多言語多話者フローベースモデルGlowVCを提案する。
私たちはGlow-TTSをベースにしており、VC推論に使用することなく、トレーニング中に言語機能の使用を可能にするアーキテクチャを提供します。
GlowVC-conditionalとGlowVC-explicitの2つのバージョンを検討します。
GlowVC-条件は、話者条件付き流れを伴うメルスペクトルの分布をモデル化し、メルスペクトル空間をコンテントおよびピッチ関連次元に分解する一方、GlowVC-条件は、その空間をコンテント、ピッチ関連次元、およびスピーカ関連次元に非条件流およびアンタングルで明示的な分布をモデル化する。
我々は,見知らぬ言語における言語内および言語間変換の可知性,話者類似性,自然性の観点から,我々のモデルを評価する。
GlowVCモデルは、インテリジェンスの観点からはAutoVCベースラインを大幅に上回り、言語内VCでは高い話者類似性を達成し、言語間設定ではわずかに劣る。
また,GlowVC-explicit は自然性の観点から GlowVC- Conditional と AutoVC のどちらよりも優れていることを示す。
関連論文リスト
- CTEFM-VC: Zero-Shot Voice Conversion Based on Content-Aware Timbre Ensemble Modeling and Flow Matching [7.144608815694702]
CTEFM-VCは、発話を言語内容と音色表現に分解するフレームワークである。
音色モデリング能力と生成音声の自然性を高めるため,文脈を考慮した音色アンサンブルモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FastVC: Fast Voice Conversion with non-parallel data [13.12834490248018]
本稿では、高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。
FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。
提案されたモデルの単純な構造にもかかわらず、自然性の観点から見ると、VC Challenge 2020の言語横断タスクのベースラインを上回っている。
論文 参考訳(メタデータ) (2020-10-08T18:05:30Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。