論文の概要: Synthesizer Preset Interpolation using Transformer Auto-Encoders
- arxiv url: http://arxiv.org/abs/2210.16984v1
- Date: Thu, 27 Oct 2022 15:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:57:32.645452
- Title: Synthesizer Preset Interpolation using Transformer Auto-Encoders
- Title(参考訳): トランスオートエンコーダを用いた合成器プリセット補間
- Authors: Gwendal Le Vaillant, Thierry Dutoit
- Abstract要約: 本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
- 参考スコア(独自算出の注目度): 4.213427823201119
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sound synthesizers are widespread in modern music production but they
increasingly require expert skills to be mastered. This work focuses on
interpolation between presets, i.e., sets of values of all sound synthesis
parameters, to enable the intuitive creation of new sounds from existing ones.
We introduce a bimodal auto-encoder neural network, which simultaneously
processes presets using multi-head attention blocks, and audio using
convolutions. This model has been tested on a popular frequency modulation
synthesizer with more than one hundred parameters. Experiments have compared
the model to related architectures and methods, and have demonstrated that it
performs smoother interpolations. After training, the proposed model can be
integrated into commercial synthesizers for live interpolation or sound design
tasks.
- Abstract(参考訳): サウンドシンセサイザーは現代の音楽制作で広く普及しているが、熟練のスキルを身につける必要がある。
この研究は、すべての音合成パラメータの値のセットであるプリセット間の補間に焦点を当て、既存の音から新しい音を直感的に生成できるようにする。
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調合成器でテストされている。
実験では、モデルを関連するアーキテクチャや手法と比較し、よりスムーズな補間を行うことを示した。
トレーニング後,提案モデルは実演補間や音響設計作業のために市販の合成装置に組み込むことができる。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation [19.13182347908491]
音色を最適に復元するパラメータの集合を推定する問題は、重要かつ複雑な問題である。
我々は,この問題を解決するために,マルチモーダルなディープラーニングベースのパイプラインSound2 Synthと,ネットワーク構造であるPrime-Dilated Convolution(PDC)を提案する。
提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。
論文 参考訳(メタデータ) (2022-05-06T06:55:29Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。