論文の概要: VaPar Synth -- A Variational Parametric Model for Audio Synthesis
- arxiv url: http://arxiv.org/abs/2004.00001v1
- Date: Mon, 30 Mar 2020 16:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:46:55.456009
- Title: VaPar Synth -- A Variational Parametric Model for Audio Synthesis
- Title(参考訳): VaPar Synth - 音響合成のための変分パラメトリックモデル
- Authors: Krishna Subramani, Preeti Rao, Alexandre D'Hooge
- Abstract要約: 本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
- 参考スコア(独自算出の注目度): 78.3405844354125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of data-driven statistical modeling and abundant computing
power, researchers are turning increasingly to deep learning for audio
synthesis. These methods try to model audio signals directly in the time or
frequency domain. In the interest of more flexible control over the generated
sound, it could be more useful to work with a parametric representation of the
signal which corresponds more directly to the musical attributes such as pitch,
dynamics and timbre. We present VaPar Synth - a Variational Parametric
Synthesizer which utilizes a conditional variational autoencoder (CVAE) trained
on a suitable parametric representation. We demonstrate our proposed model's
capabilities via the reconstruction and generation of instrumental tones with
flexible control over their pitch.
- Abstract(参考訳): データ駆動統計モデリングと豊富な計算能力の出現により、研究者たちは音声合成の深層学習へと向かっている。
これらの手法は、時間または周波数領域で直接音響信号をモデル化しようとする。
生成した音をより柔軟に制御することに関心があるため、ピッチ、ダイナミクス、音色といった音楽的属性に直接対応する信号のパラメトリック表現を扱うのがより有用である。
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。