論文の概要: Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP
- arxiv url: http://arxiv.org/abs/2409.02451v1
- Date: Wed, 4 Sep 2024 05:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:02:12.315960
- Title: Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP
- Title(参考訳): 微分可能DSPを用いた高速・高品質・パラメータ効率調音合成
- Authors: Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli,
- Abstract要約: EMA(Electronic Articulography)のような動脈軌跡は声道フィルタの低次元表現を提供する。
本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質でパラメータ効率のよいVocoderを提案する。
本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
- 参考スコア(独自算出の注目度): 6.295981052578859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulatory trajectories like electromagnetic articulography (EMA) provide a low-dimensional representation of the vocal tract filter and have been used as natural, grounded features for speech synthesis. Differentiable digital signal processing (DDSP) is a parameter-efficient framework for audio synthesis. Therefore, integrating low-dimensional EMA features with DDSP can significantly enhance the computational efficiency of speech synthesis. In this paper, we propose a fast, high-quality, and parameter-efficient DDSP articulatory vocoder that can synthesize speech from EMA, F0, and loudness. We incorporate several techniques to solve the harmonics / noise imbalance problem, and add a multi-resolution adversarial loss for better synthesis quality. Our model achieves a transcription word error rate (WER) of 6.67% and a mean opinion score (MOS) of 3.74, with an improvement of 1.63% and 0.16 compared to the state-of-the-art (SOTA) baseline. Our DDSP vocoder is 4.9x faster than the baseline on CPU during inference, and can generate speech of comparable quality with only 0.4M parameters, in contrast to the 9M parameters required by the SOTA.
- Abstract(参考訳): エレクトロニック・アーティキュログラフィー(EMA)のような動脈は声道フィルタの低次元表現を提供しており、音声合成の自然な基礎的特徴として用いられてきた。
微分可能デジタル信号処理(DDSP)は、音声合成のためのパラメータ効率の高いフレームワークである。
したがって、低次元のEMA特徴をDDSPと統合することで、音声合成の計算効率を大幅に向上させることができる。
本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質かつパラメータ効率の高いDDSP音声ボコーダを提案する。
我々は、高調波/雑音の不均衡問題を解決するためにいくつかの手法を取り入れ、より優れた合成品質を実現するために多分解能逆損失を加える。
本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
我々のDDSPボコーダは、推論中にCPUのベースラインよりも4.9倍高速で、SOTAが要求する9Mパラメータとは対照的に、0.4Mパラメータで同等の品質の音声を生成することができる。
関連論文リスト
- Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis [9.916195285279931]
DSPヴォコーダは、過度に滑らかな音響モデル予測を消費するため、音質が低下することが多い。
DSPボコーダと共同最適化された音響モデルを用いた超軽量DSP(DDSP)ボコーダを提案し,声道スペクトルの特徴を抽出せずに学習する。
論文 参考訳(メタデータ) (2024-01-19T02:51:00Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。
ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。
単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文 参考訳(メタデータ) (2022-04-08T07:24:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。