論文の概要: Neural Proxies for Sound Synthesizers: Learning Perceptually Informed Preset Representations
- arxiv url: http://arxiv.org/abs/2509.07635v1
- Date: Tue, 09 Sep 2025 12:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.293213
- Title: Neural Proxies for Sound Synthesizers: Learning Perceptually Informed Preset Representations
- Title(参考訳): 音声合成のためのニューラルプロキシ:知覚的インフォームド・プレセット表現の学習
- Authors: Paolo Combes, Stefan Weinzierl, Klaus Obermayer,
- Abstract要約: 我々はニューラルネットワークを訓練し、事前訓練されたモデルから派生したオーディオ埋め込み空間に合成器のプリセットをマッピングする。
これにより、コンパクトだが効果的な表現を生成するニューラルプロキシの定義が容易になる。
提案手法は,3つのソフトウェアシンセサイザーの合成プレセットと手作りプリセットを用いて評価する。
- 参考スコア(独自算出の注目度): 1.2016264781280588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning appears as an appealing solution for Automatic Synthesizer Programming (ASP), which aims to assist musicians and sound designers in programming sound synthesizers. However, integrating software synthesizers into training pipelines is challenging due to their potential non-differentiability. This work tackles this challenge by introducing a method to approximate arbitrary synthesizers. Specifically, we train a neural network to map synthesizer presets onto an audio embedding space derived from a pretrained model. This facilitates the definition of a neural proxy that produces compact yet effective representations, thereby enabling the integration of audio embedding loss into neural-based ASP systems for black-box synthesizers. We evaluate the representations derived by various pretrained audio models in the context of neural-based nASP and assess the effectiveness of several neural network architectures, including feedforward, recurrent, and transformer-based models, in defining neural proxies. We evaluate the proposed method using both synthetic and hand-crafted presets from three popular software synthesizers and assess its performance in a synthesizer sound matching downstream task. While the benefits of the learned representation are nuanced by resource requirements, encouraging results were obtained for all synthesizers, paving the way for future research into the application of synthesizer proxies for neural-based ASP systems.
- Abstract(参考訳): ディープラーニングは、音楽家や音響デザイナーが音声シンセサイザーをプログラミングするのを支援することを目的とした、自動シンセサイザープログラミング(ASP)の魅力的なソリューションである。
しかし、ソフトウェアシンセサイザーをトレーニングパイプラインに統合することは、その潜在的な非微分可能性のために難しい。
この研究は任意のシンセサイザーを近似する手法を導入することでこの問題に取り組む。
具体的には、ニューラルネットワークをトレーニングして、事前訓練されたモデルから派生したオーディオ埋め込み空間に合成器プリセットをマッピングする。
これにより、コンパクトで効果的な表現を生成するニューラルプロキシの定義が容易になり、ブラックボックスシンセサイザーのためのニューラルベースASPシステムへのオーディオ埋め込み損失の統合が可能になる。
ニューラルベースnASPの文脈における各種事前学習音声モデルによる表現を評価し、ニューラルプロキシを定義する際に、フィードフォワード、リカレント、トランスフォーマーベースモデルを含む複数のニューラルネットワークアーキテクチャの有効性を評価する。
提案手法は,3つのソフトウェアシンセサイザーの合成および手作りプリセットを用いて評価し,その性能評価を行う。
学習された表現の利点は、リソース要求によってニュアンス化されているが、すべてのシンセサイザーに対して奨励的な結果が得られ、ニューラルベースASPシステムへのシンセサイザープロキシの適用に関する今後の研究の道が開かれた。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたソフトウェアスパイクニューラルネットワークシミュレータである。
得られた結果が,ソフトウェアでトレーニングされたスパイクニューラルネットワークの動作を,かつてハードウェアにデプロイされた場合の信頼性の高い推定方法を示す。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - Contrastive-Signal-Dependent Plasticity: Self-Supervised Learning in Spiking Neural Circuits [61.94533459151743]
この研究は、スパイキングネットワークのシナプスを調整するための神経生物学的に動機づけられたスキームを設計することの課題に対処する。
我々の実験シミュレーションは、繰り返しスパイクネットワークを訓練する際、他の生物学的に証明可能なアプローチに対して一貫した優位性を示す。
論文 参考訳(メタデータ) (2023-03-30T02:40:28Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Rigid-Body Sound Synthesis with Differentiable Modal Resonators [6.680437329908454]
本稿では,深層ニューラルネットワークを訓練し,与えられた2次元形状と材料に対するモーダル共振器を生成するための,新しいエンドツーエンドフレームワークを提案する。
合成対象のデータセット上で本手法を実証するが,音声領域の目的を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-10-27T10:34:38Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。