論文の概要: VaPar Synth -- A Variational Parametric Model for Audio Synthesis
- arxiv url: http://arxiv.org/abs/2004.00001v1
- Date: Mon, 30 Mar 2020 16:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:46:55.456009
- Title: VaPar Synth -- A Variational Parametric Model for Audio Synthesis
- Title(参考訳): VaPar Synth - 音響合成のための変分パラメトリックモデル
- Authors: Krishna Subramani, Preeti Rao, Alexandre D'Hooge
- Abstract要約: 本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
- 参考スコア(独自算出の注目度): 78.3405844354125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of data-driven statistical modeling and abundant computing
power, researchers are turning increasingly to deep learning for audio
synthesis. These methods try to model audio signals directly in the time or
frequency domain. In the interest of more flexible control over the generated
sound, it could be more useful to work with a parametric representation of the
signal which corresponds more directly to the musical attributes such as pitch,
dynamics and timbre. We present VaPar Synth - a Variational Parametric
Synthesizer which utilizes a conditional variational autoencoder (CVAE) trained
on a suitable parametric representation. We demonstrate our proposed model's
capabilities via the reconstruction and generation of instrumental tones with
flexible control over their pitch.
- Abstract(参考訳): データ駆動統計モデリングと豊富な計算能力の出現により、研究者たちは音声合成の深層学習へと向かっている。
これらの手法は、時間または周波数領域で直接音響信号をモデル化しようとする。
生成した音をより柔軟に制御することに関心があるため、ピッチ、ダイナミクス、音色といった音楽的属性に直接対応する信号のパラメトリック表現を扱うのがより有用である。
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
関連論文リスト
- DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound [4.002298833349517]
高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法を開発した。
本研究では,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案モデルでは従来のRAVEモデルよりも性能と安定性が向上した。
論文 参考訳(メタデータ) (2022-11-16T07:11:56Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。