論文の概要: Adversarially learning disentangled speech representations for robust
multi-factor voice conversion
- arxiv url: http://arxiv.org/abs/2102.00184v2
- Date: Fri, 20 Aug 2021 07:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 06:53:36.276827
- Title: Adversarially learning disentangled speech representations for robust
multi-factor voice conversion
- Title(参考訳): 頑健な多要素音声変換のための不整合音声表現の逆学習
- Authors: Jie Wang, Jingbei Li, Xintao Zhao, Zhiyong Wu, Shiyin Kang, Helen Meng
- Abstract要約: 本稿では,敵対的学習に基づくアンタングル型音声表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらに混乱させる。
実験の結果,提案手法はVCの頑健性を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 39.91395314356084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factorizing speech as disentangled speech representations is vital to achieve
highly controllable style transfer in voice conversion (VC). Conventional
speech representation learning methods in VC only factorize speech as speaker
and content, lacking controllability on other prosody-related factors.
State-of-the-art speech representation learning methods for more speechfactors
are using primary disentangle algorithms such as random resampling and ad-hoc
bottleneck layer size adjustment,which however is hard to ensure robust speech
representationdisentanglement. To increase the robustness of highly
controllable style transfer on multiple factors in VC, we propose a
disentangled speech representation learning framework based on adversarial
learning. Four speech representations characterizing content, timbre, rhythm
and pitch are extracted, and further disentangled by an adversarial
Mask-And-Predict (MAP)network inspired by BERT. The adversarial network is used
tominimize the correlations between the speech representations,by randomly
masking and predicting one of the representationsfrom the others. Experimental
results show that the proposedframework significantly improves the robustness
of VC on multiple factors by increasing the speech quality MOS from 2.79 to3.30
and decreasing the MCD from 3.89 to 3.58.
- Abstract(参考訳): 音声変換(VC)における高制御可能なスタイル伝達を実現するためには,不整合表現としての分解音声が不可欠である。
VCにおける従来の音声表現学習法は、音声を話者とコンテンツとしてのみ分解し、他の韻律関連因子の制御性に欠ける。
より多くの音声因子に対する最先端の音声表現学習手法は、ランダムな再サンプリングやアドホックなボトルネック層サイズ調整などの一次不等角化アルゴリズムを使用しているが、頑健な音声表現の不等角化を保証するのは難しい。
本稿では,VCにおける複数の要因に対する高度に制御可能なスタイル伝達のロバスト性を高めるために,敵対的学習に基づく言語表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらにBERTにインスパイアされた敵のMask-And-Predict(MAP)ネットワークによって歪められる。
対向ネットワークは、音声表現間の相関をランダムにマスキングし、他の表現から1つの表現を予測することによって最小化する。
実験の結果,提案手法は, 音声品質のMOSを2.79から3.30に, MCDを3.89から3.58に向上させることで, VCの堅牢性を著しく向上させることがわかった。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。