論文の概要: Deep generative models for musical audio synthesis
- arxiv url: http://arxiv.org/abs/2006.06426v2
- Date: Wed, 25 Nov 2020 09:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:14:39.533607
- Title: Deep generative models for musical audio synthesis
- Title(参考訳): 音楽音声合成のための深部生成モデル
- Authors: M. Huzaifah and L. Wyse
- Abstract要約: 音響モデリングは、パラメトリック制御の下で音を生成するアルゴリズムを開発するプロセスである。
音声合成のための最近の生成的深層学習システムは、任意の音空間を横切ることができるモデルを学習することができる。
本稿では,音響モデリングの実践を変える深層学習の展開を概観する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sound modelling is the process of developing algorithms that generate sound
under parametric control. There are a few distinct approaches that have been
developed historically including modelling the physics of sound production and
propagation, assembling signal generating and processing elements to capture
acoustic features, and manipulating collections of recorded audio samples.
While each of these approaches has been able to achieve high-quality synthesis
and interaction for specific applications, they are all labour-intensive and
each comes with its own challenges for designing arbitrary control strategies.
Recent generative deep learning systems for audio synthesis are able to learn
models that can traverse arbitrary spaces of sound defined by the data they
train on. Furthermore, machine learning systems are providing new techniques
for designing control and navigation strategies for these models. This paper is
a review of developments in deep learning that are changing the practice of
sound modelling.
- Abstract(参考訳): 音響モデリングは、パラメトリック制御下で音を生成するアルゴリズムを開発するプロセスである。
歴史的に開発されたアプローチとしては、音の生成と伝播の物理のモデル化、音響的特徴を捉えるための信号生成と処理要素の組み立て、録音された音声サンプルのコレクションの操作などがある。
それぞれのアプローチは、特定のアプリケーションに対して高品質な合成と相互作用を達成できたが、それらはすべて労働集約的であり、それぞれに任意の制御戦略を設計するための独自の課題がある。
最近の音声合成のための生成的ディープラーニングシステムは、トレーニングしたデータによって定義された任意の音空間を横断するモデルを学ぶことができる。
さらに、機械学習システムはこれらのモデルの制御とナビゲーション戦略を設計するための新しい技術を提供している。
本稿では,音モデルの実践を変える深層学習の展開について概観する。
関連論文リスト
- LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search [0.5624791703748108]
進化的アルゴリズムと生成的深層学習を組み合わせて現実的な音を生成するLVNS-RAVEを提案する。
提案するアルゴリズムは、サウンドアーティストやミュージシャンのための創造的なツールである。
論文 参考訳(メタデータ) (2024-04-22T10:20:41Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - A General Framework for Learning Procedural Audio Models of
Environmental Sounds [7.478290484139404]
本稿では,手続き型自動エンコーダ(ProVE)フレームワークについて,手続き型オーディオPAモデルを学習するための一般的なアプローチとして紹介する。
本稿では, ProVE モデルが従来の PA モデルと敵対的アプローチの両方を音響忠実度で上回ることを示す。
論文 参考訳(メタデータ) (2023-03-04T12:12:26Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Rigid-Body Sound Synthesis with Differentiable Modal Resonators [6.680437329908454]
本稿では,深層ニューラルネットワークを訓練し,与えられた2次元形状と材料に対するモーダル共振器を生成するための,新しいエンドツーエンドフレームワークを提案する。
合成対象のデータセット上で本手法を実証するが,音声領域の目的を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-10-27T10:34:38Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z) - Audio representations for deep learning in sound synthesis: A review [0.0]
本稿では,ディープラーニングを用いた音声合成に応用した音声表現の概要について述べる。
また、深層学習モデルを用いた音声合成アーキテクチャの開発と評価のための最も重要な手法も提示する。
論文 参考訳(メタデータ) (2022-01-07T15:08:47Z) - MTCRNN: A multi-scale RNN for directed audio texture synthesis [0.0]
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
論文 参考訳(メタデータ) (2020-11-25T09:13:53Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。