論文の概要: Pretraining Techniques for Sequence-to-Sequence Voice Conversion
- arxiv url: http://arxiv.org/abs/2008.03088v1
- Date: Fri, 7 Aug 2020 11:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:48:57.894342
- Title: Pretraining Techniques for Sequence-to-Sequence Voice Conversion
- Title(参考訳): 逐次音声変換のための事前学習技術
- Authors: Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki
Toda
- Abstract要約: シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
- 参考スコア(独自算出の注目度): 57.65753150356411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence (seq2seq) voice conversion (VC) models are attractive
owing to their ability to convert prosody. Nonetheless, without sufficient
data, seq2seq VC models can suffer from unstable training and mispronunciation
problems in the converted speech, thus far from practical. To tackle these
shortcomings, we propose to transfer knowledge from other speech processing
tasks where large-scale corpora are easily available, typically text-to-speech
(TTS) and automatic speech recognition (ASR). We argue that VC models
initialized with such pretrained ASR or TTS model parameters can generate
effective hidden representations for high-fidelity, highly intelligible
converted speech. We apply such techniques to recurrent neural network
(RNN)-based and Transformer based models, and through systematical experiments,
we demonstrate the effectiveness of the pretraining scheme and the superiority
of Transformer based models over RNN-based models in terms of intelligibility,
naturalness, and similarity.
- Abstract(参考訳): sequence-to-sequence (seq2seq) voice conversion (vc) モデルは、韻律変換能力があるため魅力的である。
それでも、十分なデータがなければ、Seq2seq VCモデルは、変換された音声の不安定な訓練や発音ミスに悩まされる可能性がある。
これらの欠点に対処するために,大規模コーパスが容易に利用できる他の音声処理タスク,通常,テキスト音声(TTS)と自動音声認識(ASR)から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータで初期化されたVCモデルは、高忠実で高知能な変換音声に対して効果的な隠れ表現を生成することができる。
このような手法をリカレントニューラルネットワーク(RNN)およびトランスフォーマーベースモデルに適用し、系統的な実験を通じて、インテリジェンス、自然性、類似性の観点から、トランスフォーマーモデルに対する事前学習方式の有効性と、トランスフォーマーベースモデルの優越性を実証する。
関連論文リスト
- SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Echo State Speech Recognition [10.084532635965513]
エコー状態ネットワーク(ESN)を用いた自動音声認識モデルの提案
モデル品質はデコーダが完全にランダム化されても低下しないことを示す。
このようなモデルは、デコーダを更新する必要がないため、より効率的にトレーニングできます。
論文 参考訳(メタデータ) (2021-02-18T02:04:14Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。