論文の概要: Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer
- arxiv url: http://arxiv.org/abs/2208.07282v1
- Date: Mon, 15 Aug 2022 15:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 15:12:09.905053
- Title: Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer
- Title(参考訳): 可変WORLD合成器を用いたニューラルヴォコーダとエンドツーエンド音声スタイル変換への応用
- Authors: Shahan Nercessian
- Abstract要約: 本稿では,WORLDシンセサイザーを試作し,エンド・ツー・エンドのオーディオ・スタイル・トランスファー・タスクでの利用を実証する。
ベースライン微分可能シンセサイザーはモデルパラメータを持たないが、十分な品質合成が得られる。
別の微分可能なアプローチでは、ソーススペクトルの抽出を直接考慮し、自然性を改善することができる。
- 参考スコア(独自算出の注目度): 6.29475963948119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a differentiable WORLD synthesizer and demonstrate
its use in end-to-end audio style transfer tasks such as (singing) voice
conversion and the DDSP timbre transfer task. Accordingly, our baseline
differentiable synthesizer has no model parameters, yet it yields adequate
synthesis quality. We can extend the baseline synthesizer by appending
lightweight black-box postnets which apply further processing to the baseline
output in order to improve fidelity. An alternative differentiable approach
considers extraction of the source excitation spectrum directly, which can
improve naturalness albeit for a narrower class of style transfer applications.
The acoustic feature parameterization used by our approaches has the added
benefit that it naturally disentangles pitch and timbral information so that
they can be modeled separately. Moreover, as there exists a robust means of
estimating these acoustic features from monophonic audio sources, it allows for
parameter loss terms to be added to an end-to-end objective function, which can
help convergence and/or further stabilize (adversarial) training.
- Abstract(参考訳): 本稿では,WORLDシンセサイザを提案し,音声変換(歌唱)やDDSP音色変換タスクなどのエンドツーエンドの音声変換タスクに使用することを示す。
したがって、ベースライン微分型シンセサイザーはモデルパラメータを持たないが、十分な合成品質が得られる。
ベースライン出力にさらなる処理を施した軽量のブラックボックス・ポストネットを付加することにより、ベースラインシンセサイザーを拡張できる。
別の微分可能なアプローチでは、より狭いスタイル転送アプリケーションに対して自然性を改善することができるソース励起スペクトルを直接抽出することを考える。
提案手法の音響特性パラメタライゼーションは,ピッチと音節情報を独立にモデル化できるように自然に切り離すという利点がある。
さらに、これらの音響特徴をモノフォニック音源から推定する堅牢な手段が存在するため、パラメータ損失項をエンドツーエンドの目的関数に追加することができ、収束および/または更なる安定化(逆)訓練を支援することができる。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。