論文の概要: Invertible Voice Conversion
- arxiv url: http://arxiv.org/abs/2201.10687v1
- Date: Wed, 26 Jan 2022 00:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 14:42:00.115537
- Title: Invertible Voice Conversion
- Title(参考訳): 可逆音声変換
- Authors: Zexin Cai, Ming Li
- Abstract要約: 本稿では,音声変換のための非可逆ディープラーニングフレームワークINVVCを提案する。
ソースの同一性をトレース可能な,可逆的なフレームワークを開発した。
提案手法を並列学習データを用いて1対1の音声変換と多対1の音声変換に適用する。
- 参考スコア(独自算出の注目度): 12.095003816544919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an invertible deep learning framework called INVVC
for voice conversion. It is designed against the possible threats that
inherently come along with voice conversion systems. Specifically, we develop
an invertible framework that makes the source identity traceable. The framework
is built on a series of invertible $1\times1$ convolutions and flows consisting
of affine coupling layers. We apply the proposed framework to one-to-one voice
conversion and many-to-one conversion using parallel training data.
Experimental results show that this approach yields impressive performance on
voice conversion and, moreover, the converted results can be reversed back to
the source inputs utilizing the same parameters as in forwarding.
- Abstract(参考訳): 本稿では,音声変換のための非可逆ディープラーニングフレームワークINVVCを提案する。
音声変換システムと本質的に一致する可能性のある脅威に対して設計されている。
具体的には、ソースの同一性をトレース可能な非可逆フレームワークを開発する。
このフレームワークは、アフィンカップリング層からなる一連の可逆 1\times1$ の畳み込みとフローに基づいている。
本稿では,並列学習データを用いた一対一音声変換と多対一音声変換に適用する。
実験結果から,本手法は音声変換において顕著な性能を示し,変換結果を転送時と同じパラメータを用いて入力元に戻すことができることがわかった。
関連論文リスト
- Zero-shot Voice Conversion with Diffusion Transformers [0.0]
ゼロショット音声変換は、参照音声の音色を未知の話者から一致させるために、音源音声の発話を変換することを目的としている。
従来のアプローチでは、音色漏れ、音色表現の不十分、トレーニングと推論のミスマッチに悩まされていた。
トレーニング中に外部の音色シフタを導入することで,これらの問題に対処する新しいフレームワークであるSeed-VCを提案する。
論文 参考訳(メタデータ) (2024-11-15T04:43:44Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Vocoder-free End-to-End Voice Conversion with Transformer Network [5.5792083698526405]
メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T06:19:24Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。