論文の概要: The Mirrornet : Learning Audio Synthesizer Controls Inspired by
Sensorimotor Interaction
- arxiv url: http://arxiv.org/abs/2110.05695v1
- Date: Tue, 12 Oct 2021 02:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:30:53.923672
- Title: The Mirrornet : Learning Audio Synthesizer Controls Inspired by
Sensorimotor Interaction
- Title(参考訳): Mirrornet : 感覚運動の相互作用に触発された学習音声合成器制御
- Authors: Yashish M. Siriwardena, Guilhem Marion, Shihab Shamma
- Abstract要約: MirrorNetは、教師なしの方法で特定のオーディオシンセサイザーの制御を学習し、メロディを生成する。
結果は、MirrorNetがメロディを生成するシンセサイザーパラメータをどのように発見するかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Experiments to understand the sensorimotor neural interactions in the human
cortical speech system support the existence of a bidirectional flow of
interactions between the auditory and motor regions. Their key function is to
enable the brain to 'learn' how to control the vocal tract for speech
production. This idea is the impetus for the recently proposed "MirrorNet", a
constrained autoencoder architecture. In this paper, the MirrorNet is applied
to learn, in an unsupervised manner, the controls of a specific audio
synthesizer (DIVA) to produce melodies only from their auditory spectrograms.
The results demonstrate how the MirrorNet discovers the synthesizer parameters
to generate the melodies that closely resemble the original and those of unseen
melodies, and even determine the best set parameters to approximate renditions
of complex piano melodies generated by a different synthesizer. This
generalizability of the MirrorNet illustrates its potential to discover from
sensory data the controls of arbitrary motor-plants such as autonomous
vehicles.
- Abstract(参考訳): ヒト皮質音声システムにおける感覚運動ニューロンの相互作用を理解する実験は、聴覚領域と運動領域の相互作用の双方向的流れの存在を支持する。
彼らの重要な機能は、脳が音声生成のための声道の制御方法を「学習」できるようにすることである。
このアイデアは、制約付きオートエンコーダアーキテクチャである"MirrorNet"の推進力である。
本稿では、ミラーネットを用いて、特定のオーディオシンセサイザー(diva)の制御を教師なしで学習し、その聴覚スペクトログラムからのみメロディを生成する。
その結果、MirrorNetがシンセサイザーパラメータを発見し、元のメロディと見えないメロディとによく似たメロディを生成し、異なるシンセサイザーによって生成された複雑なピアノメロディの近似的なリフレクションに最適な設定パラメータを決定できることを示した。
MirrorNetのこの一般化性は、センサーデータから自動運転車のような任意のモータープラントの制御を発見する可能性を示している。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。