論文の概要: Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling
- arxiv url: http://arxiv.org/abs/2009.02725v3
- Date: Sun, 23 May 2021 09:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:30:25.491977
- Title: Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling
- Title(参考訳): 位置関係列列列モデルを用いた音声変換
- Authors: Songxiang Liu, Yuewen Cao, Disong Wang, Xixin Wu, Xunying Liu, Helen
Meng
- Abstract要約: 本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
- 参考スコア(独自算出の注目度): 61.351967629600594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an any-to-many location-relative, sequence-to-sequence
(seq2seq), non-parallel voice conversion approach, which utilizes text
supervision during training. In this approach, we combine a bottle-neck feature
extractor (BNE) with a seq2seq synthesis module. During the training stage, an
encoder-decoder-based hybrid connectionist-temporal-classification-attention
(CTC-attention) phoneme recognizer is trained, whose encoder has a bottle-neck
layer. A BNE is obtained from the phoneme recognizer and is utilized to extract
speaker-independent, dense and rich spoken content representations from
spectral features. Then a multi-speaker location-relative attention based
seq2seq synthesis model is trained to reconstruct spectral features from the
bottle-neck features, conditioning on speaker representations for speaker
identity control in the generated speech. To mitigate the difficulties of using
seq2seq models to align long sequences, we down-sample the input spectral
feature along the temporal dimension and equip the synthesis model with a
discretized mixture of logistic (MoL) attention mechanism. Since the phoneme
recognizer is trained with large speech recognition data corpus, the proposed
approach can conduct any-to-many voice conversion. Objective and subjective
evaluations show that the proposed any-to-many approach has superior voice
conversion performance in terms of both naturalness and speaker similarity.
Ablation studies are conducted to confirm the effectiveness of feature
selection and model design strategies in the proposed approach. The proposed VC
approach can readily be extended to support any-to-any VC (also known as
one/few-shot VC), and achieve high performance according to objective and
subjective evaluations.
- Abstract(参考訳): 本稿では,訓練中にテキストの監督を行う非並列音声変換手法であるseq2seq(any-to-many location-relative sequence-to-sequence)を提案する。
このアプローチでは、ボトルネック特徴抽出器(bne)とseq2seq合成モジュールを組み合わせる。
訓練段階では、エンコーダ-デコーダをベースとしたハイブリッドコネクショニスト-時間分類アテンション(CTC-attention)音素認識装置が訓練され、そのエンコーダはボトルネック層を有する。
音素認識器からBNEを取得し、スペクトル特徴から話者に依存しない、密度が高く、リッチな音声コンテンツ表現を抽出する。
次に, 発声音声における話者識別制御のための話者表現を条件に, ボトルネックの特徴からスペクトル特徴を再構成するために, 複数話者位置対応型セク2セック合成モデルを訓練する。
seq2seqモデルを用いて長い列を整列することの難しさを軽減するため、入力スペクトル特徴を時間次元に沿ってダウンサンプリングし、ロジスティック(mol)注意機構の離散混合物を合成モデルに装備する。
音素認識装置は大規模音声認識データコーパスで訓練されているため,提案手法は音声変換を行うことができる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
提案手法における特徴選択とモデル設計戦略の有効性を検証するためのアブレーション研究を行った。
提案したVCアプローチは、任意のVC(ワンショットVCとも呼ばれる)をサポートし、客観的かつ主観的な評価に従って高いパフォーマンスを達成するために、容易に拡張できる。
関連論文リスト
- Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。