論文の概要: Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via
Adversarial Training
- arxiv url: http://arxiv.org/abs/2012.01837v1
- Date: Thu, 3 Dec 2020 11:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 23:00:27.630875
- Title: Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via
Adversarial Training
- Title(参考訳): 逆行訓練による多対多の歌声変換に基づく音韻後音素
- Authors: Haohan Guo, Heng Lu, Na Hu, Chunlei Zhang, Shan Yang, Lei Xie, Dan Su,
Dong Yu
- Abstract要約: 本稿では,エンド・ツー・エンドの歌唱音声変換(EA-SVC)手法について述べる。
与えられた音素内容、ピッチを表すF0、音色を表す話者埋め込みにより、任意の歌唱波形を直接生成することができる。
提案システムは、歌声品質と歌手の類似性の両方の観点から、従来のカスケードアプローチとWaveNetに基づくエンドツーエンドアプローチより優れている。
- 参考スコア(独自算出の注目度): 43.74004451110305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes an end-to-end adversarial singing voice conversion
(EA-SVC) approach. It can directly generate arbitrary singing waveform by given
phonetic posteriorgram (PPG) representing content, F0 representing pitch, and
speaker embedding representing timbre, respectively. Proposed system is
composed of three modules: generator $G$, the audio generation discriminator
$D_{A}$, and the feature disentanglement discriminator $D_F$. The generator $G$
encodes the features in parallel and inversely transforms them into the target
waveform. In order to make timbre conversion more stable and controllable,
speaker embedding is further decomposed to the weighted sum of a group of
trainable vectors representing different timbre clusters. Further, to realize
more robust and accurate singing conversion, disentanglement discriminator
$D_F$ is proposed to remove pitch and timbre related information that remains
in the encoded PPG. Finally, a two-stage training is conducted to keep a stable
and effective adversarial training process. Subjective evaluation results
demonstrate the effectiveness of our proposed methods. Proposed system
outperforms conventional cascade approach and the WaveNet based end-to-end
approach in terms of both singing quality and singer similarity. Further
objective analysis reveals that the model trained with the proposed two-stage
training strategy can produce a smoother and sharper formant which leads to
higher audio quality.
- Abstract(参考訳): 本稿では,エンドツーエンドの歌唱音声変換(EA-SVC)手法について述べる。
内容を表すPPG、ピッチを表すF0、音色を表す話者埋め込みにより、任意の歌唱波形を直接生成することができる。
提案システムは3つのモジュールで構成されている: generator $g$, audio generation discriminator $d_{a}$, feature disentanglement discriminator $d_f$。
ジェネレータ$g$は特徴を並列にエンコードし、逆変換して対象波形に変換する。
音色変換をより安定かつ制御可能にするため、話者埋め込みは異なる音色クラスタを表す訓練可能なベクトル群の重み付け和にさらに分解される。
さらに、よりロバストで正確な歌声変換を実現するために、符号化ppgに残されているピッチおよび音色関連情報を除去するために、ディエンタングルメント判別器$d_f$を提案する。
最後に、安定して効果的な対向訓練プロセスを維持するために、2段階の訓練を行う。
主観評価の結果,提案手法の有効性が示された。
提案システムは、歌声品質と歌手の類似性の両方の観点から、従来のカスケードアプローチとWaveNetに基づくエンドツーエンドアプローチより優れている。
さらなる客観的な分析により、提案された2段階のトレーニング戦略で訓練されたモデルは、より滑らかで鋭いフォルマントを生成でき、高いオーディオ品質をもたらすことが判明した。
関連論文リスト
- Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training [3.9306467064810438]
ワンショット音声変換は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。
既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。
本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:21:19Z) - Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。