論文の概要: DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion
- arxiv url: http://arxiv.org/abs/2210.11059v1
- Date: Thu, 20 Oct 2022 07:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:52:05.184735
- Title: DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion
- Title(参考訳): DisC-VC: 絡み合ったF0制御可能なニューラル音声変換
- Authors: Chihiro Watanabe, Hirokazu Kameoka
- Abstract要約: 補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
- 参考スコア(独自算出の注目度): 17.83563578034567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion is a task to convert a non-linguistic feature of a given
utterance. Since naturalness of speech strongly depends on its pitch pattern,
in some applications, it would be desirable to keep the original rise/fall
pitch pattern while changing the speaker identity. Some of the existing methods
address this problem by either using a source-filter model or developing a
neural network that takes an F0 pattern as input to the model. Although the
latter approach can achieve relatively high sound quality compared to the
former one, there is no consideration for discrepancy between the target and
generated F0 patterns in its training process. In this paper, we propose a new
variational-autoencoder-based voice conversion model accompanied by an
auxiliary network, which ensures that the conversion result correctly reflects
the specified F0/timbre information. We show the effectiveness of the proposed
method by objective and subjective evaluations.
- Abstract(参考訳): 音声変換は、与えられた発話の非言語的特徴を変換するタスクである。
音声の自然性はそのピッチパターンに強く依存するため、一部の応用では、話者のアイデンティティを変更しながら、元の立ち上がりピッチパターンを維持することが望ましい。
既存の手法のいくつかは、ソースフィルタモデルを使用するか、F0パターンをモデルに入力するニューラルネットワークを開発することでこの問題に対処している。
後者の方法は,前者に比べて比較的高い音質を実現することができるが,その訓練過程における目標と生成したf0パターンの相違は考慮されていない。
本稿では,変換結果が指定されたf0/timbre情報を正しく反映することを保証するために,補助ネットワークを用いた可変オートエンコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観的および主観的評価により示す。
関連論文リスト
- Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。