Fugu-MT 論文翻訳(概要): VaPar Synth -- A Variational Parametric Model for Audio Synthesis

論文の概要: VaPar Synth -- A Variational Parametric Model for Audio Synthesis

arxiv url: http://arxiv.org/abs/2004.00001v1
Date: Mon, 30 Mar 2020 16:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 08:46:55.456009
Title: VaPar Synth -- A Variational Parametric Model for Audio Synthesis
Title（参考訳）: VaPar Synth - 音響合成のための変分パラメトリックモデル
Authors: Krishna Subramani, Preeti Rao, Alexandre D'Hooge
Abstract要約: 本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
参考スコア（独自算出の注目度）: 78.3405844354125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the advent of data-driven statistical modeling and abundant computing power, researchers are turning increasingly to deep learning for audio synthesis. These methods try to model audio signals directly in the time or frequency domain. In the interest of more flexible control over the generated sound, it could be more useful to work with a parametric representation of the signal which corresponds more directly to the musical attributes such as pitch, dynamics and timbre. We present VaPar Synth - a Variational Parametric Synthesizer which utilizes a conditional variational autoencoder (CVAE) trained on a suitable parametric representation. We demonstrate our proposed model's capabilities via the reconstruction and generation of instrumental tones with flexible control over their pitch.
Abstract（参考訳）: データ駆動統計モデリングと豊富な計算能力の出現により、研究者たちは音声合成の深層学習へと向かっている。これらの手法は、時間または周波数領域で直接音響信号をモデル化しようとする。生成した音をより柔軟に制御することに関心があるため、ピッチ、ダイナミクス、音色といった音楽的属性に直接対応する信号のパラメトリック表現を扱うのがより有用である。本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。

関連論文リスト

Modulation Discovery with Differentiable Digital Signal Processing [3.428276755022932]
本稿では,変調抽出,制限された制御信号パラメータ化,微分可能なディジタル信号処理を活用するニューラルサウンドマッチング手法を提案する。コードとオーディオサンプルを利用可能にし、VSTプラグインでトレーニング済みのP構文を提供する。
論文参考訳（メタデータ） (2025-10-07T17:56:24Z)
Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文参考訳（メタデータ） (2024-07-23T16:58:14Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文参考訳（メタデータ） (2024-01-23T08:59:21Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文参考訳（メタデータ） (2022-10-27T15:20:18Z)
DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文参考訳（メタデータ） (2022-08-12T08:39:45Z)
Differentiable Digital Signal Processing Mixture Model for Synthesis Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文参考訳（メタデータ） (2022-02-01T03:38:49Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文参考訳（メタデータ） (2021-05-06T05:21:42Z)
Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2020-05-02T08:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。