論文の概要: DDX7: Differentiable FM Synthesis of Musical Instrument Sounds
- arxiv url: http://arxiv.org/abs/2208.06169v1
- Date: Fri, 12 Aug 2022 08:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:52:58.887815
- Title: DDX7: Differentiable FM Synthesis of Musical Instrument Sounds
- Title(参考訳): DDX7:楽器音の微分FM合成
- Authors: Franco Caspe, Andrew McPherson, Mark Sandler
- Abstract要約: 微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
- 参考スコア(独自算出の注目度): 7.829520196474829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FM Synthesis is a well-known algorithm used to generate complex timbre from a
compact set of design primitives. Typically featuring a MIDI interface, it is
usually impractical to control it from an audio source. On the other hand,
Differentiable Digital Signal Processing (DDSP) has enabled nuanced audio
rendering by Deep Neural Networks (DNNs) that learn to control differentiable
synthesis layers from arbitrary sound inputs. The training process involves a
corpus of audio for supervision, and spectral reconstruction loss functions.
Such functions, while being great to match spectral amplitudes, present a lack
of pitch direction which can hinder the joint optimization of the parameters of
FM synthesizers. In this paper, we take steps towards enabling continuous
control of a well-established FM synthesis architecture from an audio input.
Firstly, we discuss a set of design constraints that ease spectral optimization
of a differentiable FM synthesizer via a standard reconstruction loss. Next, we
present Differentiable DX7 (DDX7), a lightweight architecture for neural FM
resynthesis of musical instrument sounds in terms of a compact set of
parameters. We train the model on instrument samples extracted from the URMP
dataset, and quantitatively demonstrate its comparable audio quality against
selected benchmarks.
- Abstract(参考訳): FM合成は、コンパクトな設計プリミティブから複雑な音色を生成するためによく知られたアルゴリズムである。
通常、MIDIインターフェースを特徴とするが、オーディオソースから制御するのは現実的ではない。
一方,差分可能なディジタル信号処理(DDSP)では,任意の音声入力から微分可能な合成層を制御することを学ぶディープニューラルネットワーク(DNN)によるニュアンスなオーディオレンダリングが可能になった。
トレーニングプロセスには、監視のための音声コーパスとスペクトル再構成損失関数が含まれる。
このような関数はスペクトル振幅によく一致するが、FMシンセサイザーのパラメータの合同最適化を妨げるピッチ方向の欠如を示す。
本稿では,音声入力から確立されたFM合成アーキテクチャの連続制御を実現するためのステップについて述べる。
まず、標準再構成損失による微分可能FMシンセサイザーのスペクトル最適化を容易にする一連の設計制約について論じる。
次に,DX7 (DDX7) について述べる。DX7は楽器の音響的FM再生のための軽量なアーキテクチャであり,パラメータのコンパクトな集合を考慮に入れたものである。
URMPデータセットから抽出した機器のサンプルに基づいてモデルをトレーニングし、選択したベンチマークに対して同等の音質を定量的に示す。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation [19.13182347908491]
音色を最適に復元するパラメータの集合を推定する問題は、重要かつ複雑な問題である。
我々は,この問題を解決するために,マルチモーダルなディープラーニングベースのパイプラインSound2 Synthと,ネットワーク構造であるPrime-Dilated Convolution(PDC)を提案する。
提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。
論文 参考訳(メタデータ) (2022-05-06T06:55:29Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。