論文の概要: A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units
- arxiv url: http://arxiv.org/abs/2211.06535v1
- Date: Sat, 12 Nov 2022 00:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:55:53.057551
- Title: A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units
- Title(参考訳): 自己教師付き離散音声単位を用いたワンショット韻律と話者変換システム
- Authors: Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky
- Abstract要約: 既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
- 参考スコア(独自算出の注目度): 94.64927912924087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified system to realize one-shot voice conversion (VC) on the
pitch, rhythm, and speaker attributes. Existing works generally ignore the
correlation between prosody and language content, leading to the degradation of
naturalness in converted speech. Additionally, the lack of proper language
features prevents these systems from accurately preserving language content
after conversion. To address these issues, we devise a cascaded modular system
leveraging self-supervised discrete speech units as language representation.
These discrete units provide duration information essential for rhythm
modeling. Our system first extracts utterance-level prosody and speaker
representations from the raw waveform. Given the prosody representation, a
prosody predictor estimates pitch, energy, and duration for each discrete unit
in the utterance. A synthesizer further reconstructs speech based on the
predicted prosody, speaker representation, and discrete units. Experiments show
that our system outperforms previous approaches in naturalness,
intelligibility, speaker transferability, and prosody transferability. Code and
samples are publicly available.
- Abstract(参考訳): 本稿では,ピッチ,リズム,話者属性について,単発音声変換(vc)を実現する統一システムを提案する。
既存の作品は一般的に韻律と言語内容の相関を無視し、変換された音声の自然さの低下につながる。
さらに、適切な言語機能がないため、変換後の言語コンテンツを正確に保存できない。
これらの問題に対処するために、自己教師付き離散音声単位を言語表現として活用するカスケードモジュールシステムを提案する。
これらの離散単位はリズムモデリングに不可欠な時間情報を提供する。
本システムでは,まず音声レベルの韻律と話者表現を生波形から抽出する。
韻律表現が与えられると、韻律予測器は発話中の各離散単位のピッチ、エネルギー、持続時間を推定する。
合成器は、予測された韻律、話者表現、離散単位に基づいてさらに音声を再構成する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性といった従来の手法よりも優れていた。
コードとサンプルは公開されている。
関連論文リスト
- SelfVC: Voice Conversion With Iterative Refinement using Self
Transformations [44.827922493748176]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
SelfVCは、ゼロショット音声変換、言語間音声変換、制御可能な音声合成など、様々なタスクに適用できる。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [56.933140743757555]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、ソースとターゲットの音声間のスタイル伝達を学習する上での課題となる。
本稿では,自己教師型モデルから独立した単位をベースとした音響言語モデルと,スタイル伝達のためのニューラルネットワークを用いたS2STフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。