論文の概要: NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation
- arxiv url: http://arxiv.org/abs/2305.12868v1
- Date: Mon, 22 May 2023 09:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:59:51.185154
- Title: NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation
- Title(参考訳): NAS-FM:周波数変調に基づく可変・解釈可能な音声合成のためのニューラルネットワーク探索
- Authors: Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
- Abstract要約: 我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
- 参考スコア(独自算出の注目度): 38.00669627261736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing digital sound synthesizers is crucial to the music industry as it
provides a low-cost way to produce high-quality sounds with rich timbres.
Existing traditional synthesizers often require substantial expertise to
determine the overall framework of a synthesizer and the parameters of
submodules. Since expert knowledge is hard to acquire, it hinders the
flexibility to quickly design and tune digital synthesizers for diverse sounds.
In this paper, we propose ``NAS-FM'', which adopts neural architecture search
(NAS) to build a differentiable frequency modulation (FM) synthesizer. Tunable
synthesizers with interpretable controls can be developed automatically from
sounds without any prior expert knowledge and manual operating costs. In
detail, we train a supernet with a specifically designed search space,
including predicting the envelopes of carriers and modulators with different
frequency ratios. An evolutionary search algorithm with adaptive oscillator
size is then developed to find the optimal relationship between oscillators and
the frequency ratio of FM. Extensive experiments on recordings of different
instrument sounds show that our algorithm can build a synthesizer fully
automatically, achieving better results than handcrafted synthesizers. Audio
samples are available at https://nas-fm.github.io/.
- Abstract(参考訳): デジタルサウンドシンセサイザーの開発は、リッチな音色で高品質な音を作り出すための低コストな方法を提供する音楽産業にとって不可欠である。
既存のシンセサイザーは、しばしばシンセサイザーの全体的なフレームワークとサブモジュールのパラメータを決定するためにかなりの専門知識を必要とする。
専門家の知識は入手が難しいため、デジタルシンセサイザーを設計し、様々な音をチューニングする柔軟性を妨げている。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)を用いて,周波数変調(FM)シンセサイザーを構築する「NAS-FM'」を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識や手動の操作コストなしに音から自動的に開発することができる。
詳細は、キャリアと変調器のエンベロープを周波数比で予測することを含む、特別に設計された検索空間を持つスーパーネットを訓練する。
次に,適応発振器サイズを持つ進化的探索アルゴリズムを開発し,fmの周波数比と発振器の最適関係を求める。
異なる楽器音の録音を広範囲に実験した結果,手作りのシンセサイザーよりも,完全に自動でシンセサイザーを構築できることがわかった。
オーディオサンプルはhttps://nas-fm.github.io/で入手できる。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation [19.13182347908491]
音色を最適に復元するパラメータの集合を推定する問題は、重要かつ複雑な問題である。
我々は,この問題を解決するために,マルチモーダルなディープラーニングベースのパイプラインSound2 Synthと,ネットワーク構造であるPrime-Dilated Convolution(PDC)を提案する。
提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。
論文 参考訳(メタデータ) (2022-05-06T06:55:29Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。