論文の概要: Many-to-Many Voice Transformer Network
- arxiv url: http://arxiv.org/abs/2005.08445v4
- Date: Fri, 6 Nov 2020 22:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:35:44.369507
- Title: Many-to-Many Voice Transformer Network
- Title(参考訳): 多対多音声変圧器ネットワーク
- Authors: Hirokazu Kameoka, Wen-Chin Huang, Kou Tanaka, Takuhiro Kaneko,
Nobukatsu Hojo, and Tomoki Toda
- Abstract要約: 本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
- 参考スコア(独自算出の注目度): 55.17770019619078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a voice conversion (VC) method based on a
sequence-to-sequence (S2S) learning framework, which enables simultaneous
conversion of the voice characteristics, pitch contour, and duration of input
speech. We previously proposed an S2S-based VC method using a transformer
network architecture called the voice transformer network (VTN). The original
VTN was designed to learn only a mapping of speech feature sequences from one
speaker to another. The main idea we propose is an extension of the original
VTN that can simultaneously learn mappings among multiple speakers. This
extension called the many-to-many VTN makes it able to fully use available
training data collected from multiple speakers by capturing common latent
features that can be shared across different speakers. It also allows us to
introduce a training loss called the identity mapping loss to ensure that the
input feature sequence will remain unchanged when the source and target speaker
indices are the same. Using this particular loss for model training has been
found to be extremely effective in improving the performance of the model at
test time. We conducted speaker identity conversion experiments and found that
our model obtained higher sound quality and speaker similarity than baseline
methods. We also found that our model, with a slight modification to its
architecture, could handle any-to-many conversion tasks reasonably well.
- Abstract(参考訳): 本稿では,入力音声の音声特性,ピッチ輪郭,持続時間を同時に変換できるs2s学習フレームワークに基づく音声変換(vc)手法を提案する。
我々は以前,VTN(Voice Transformer Network)と呼ばれるトランスフォーマーネットワークアーキテクチャを用いたS2SベースのVC手法を提案した。
オリジナルのVTNは、ある話者から別の話者への音声特徴系列のマッピングのみを学ぶように設計されていた。
提案する主なアイデアは、複数の話者間のマッピングを同時に学習できるオリジナルのVTNの拡張である。
many-to-many VTNと呼ばれるこの拡張により、複数の話者から収集されたトレーニングデータを、複数の話者間で共有可能な一般的な潜伏機能によって完全に利用することができる。
また、ソースとターゲット話者の指標が同じである場合に入力特徴系列が変化し続けることを保証するために、IDマッピング損失と呼ばれるトレーニング損失を導入することもできる。
この特定の損失をモデルトレーニングに使用すると、テスト時のモデルの性能を改善するのに極めて効果的であることが判明した。
話者同一性変換実験を行い,本モデルがベースライン法よりも高い音質と話者類似性を得た。
また、我々のモデルはアーキテクチャを少し変更することで、任意の対多変換タスクを合理的に処理できることがわかった。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Conversion using Conditional Cycle-Consistent
Adversarial Networks [3.1317409221921144]
我々は、CycleGANを話者にネットワークを条件付けすることで拡張する。
提案手法は,GAN(Generative Adversarial Network)を用いて複数話者間で多対多の音声変換を行うことができる。
提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換された音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-02-15T06:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。