論文の概要: Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models
- arxiv url: http://arxiv.org/abs/2411.14972v1
- Date: Fri, 22 Nov 2024 14:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:36.210505
- Title: Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models
- Title(参考訳): Open-Amp: 音響効果基礎モデルのための合成データフレームワーク
- Authors: Alec Wright, Alistair Carson, Lauri Juvela,
- Abstract要約: 本稿では,大規模かつ多様なオーディオエフェクトデータを生成するための合成データフレームワークであるOpen-Ampを紹介する。
実験により, ギターエフェクトエンコーダの訓練に Open-Amp を用いることで, 複数のギターエフェクト分類タスクにおいて, 新たな最先端結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 4.569691863088947
- License:
- Abstract: This paper introduces Open-Amp, a synthetic data framework for generating large-scale and diverse audio effects data. Audio effects are relevant to many musical audio processing and Music Information Retrieval (MIR) tasks, such as modelling of analog audio effects, automatic mixing, tone matching and transcription. Existing audio effects datasets are limited in scope, usually including relatively few audio effects processors and a limited amount of input audio signals. Our proposed framework overcomes these issues, by crowdsourcing neural network emulations of guitar amplifiers and effects, created by users of open-source audio effects emulation software. This allows users of Open-Amp complete control over the input signals to be processed by the effects models, as well as providing high-quality emulations of hundreds of devices. Open-Amp can render audio online during training, allowing great flexibility in data augmentation. Our experiments show that using Open-Amp to train a guitar effects encoder achieves new state-of-the-art results on multiple guitar effects classification tasks. Furthermore, we train a one-to-many guitar effects model using Open-Amp, and use it to emulate unseen analog effects via manipulation of its learned latent space, indicating transferability to analog guitar effects data.
- Abstract(参考訳): 本稿では,大規模かつ多様なオーディオエフェクトデータを生成するための合成データフレームワークであるOpen-Ampを紹介する。
音響効果は、アナログオーディオ効果のモデリング、自動ミキシング、トーンマッチング、転写など、多くの音楽オーディオ処理や音楽情報検索(MIR)タスクに関係している。
既存のオーディオエフェクトデータセットはスコープに限られており、通常は比較的少ないオーディオエフェクトプロセッサと限られた入力オーディオ信号を含む。
提案手法は,ギターアンプとエフェクトのニューラルネットワークエミュレーションをクラウドソーシングすることで,これらの問題を解決する。
これにより、Open-Ampのユーザは、エフェクトモデルによって処理される入力信号を完全にコントロールできると同時に、数百のデバイスの高品質なエミュレーションを提供することができる。
Open-Ampはトレーニング中にオーディオをオンラインでレンダリングできるので、データ拡張の柔軟性も高い。
実験により, ギターエフェクトエンコーダの訓練に Open-Amp を用いることで, 複数のギターエフェクト分類タスクにおいて, 新たな最先端結果が得られることがわかった。
さらに,Open-Ampを用いて1対多のギターエフェクトモデルを訓練し,学習した潜在空間の操作により未知のアナログエフェクトをエミュレートし,アナログエフェクトデータへの転送可能性を示す。
関連論文リスト
- Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific
Input Representation and Diffusion Outpainting [9.812666469580872]
楽器への入力表現をカスタマイズした音響ギター音響合成モデルを提案する。
本研究では,長期的整合性のある音声を生成する拡散型アウトペイントを用いて提案手法を実装した。
提案モデルはベースラインモデルよりも音質が高く,よりリアルな音色を生成する。
論文 参考訳(メタデータ) (2024-01-24T14:44:01Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Modulation Extraction for LFO-driven Audio Effects [5.740770499256802]
本稿では,複数のディジタルオーディオ効果,パラメータ設定,楽器構成にまたがって処理された音声から任意のLFO信号を抽出できるフレームワークを提案する。
本稿では,抽出モデルを単純な処理ネットワークと組み合わせることで,未知のアナログやデジタルLFO駆動音声効果の終端から終端までのブラックボックスモデルの訓練を可能にすることを示す。
コードを利用可能にし、訓練されたオーディオエフェクトモデルをリアルタイムVSTプラグインで提供します。
論文 参考訳(メタデータ) (2023-05-22T17:33:07Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Removing Distortion Effects in Music Using Deep Neural Networks [12.497836634060569]
本稿では,音楽制作のためのギタートラックに適用される歪みやクリップの除去に焦点をあてる。
これは、このタスクにおける異なるディープニューラルネットワーク(DNN)アーキテクチャの比較研究を示す。
歪み信号に対するクリーン信号を重畳する効果に対して,DNNを用いた歪み除去において,優れた結果が得られる。
論文 参考訳(メタデータ) (2022-02-03T16:26:29Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - Differentiable Signal Processing With Black-Box Audio Effects [44.93154498647659]
本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。
我々の手法は、音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。
論文 参考訳(メタデータ) (2021-05-11T02:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。