論文の概要: One Billion Audio Sounds from GPU-enabled Modular Synthesis
- arxiv url: http://arxiv.org/abs/2104.12922v1
- Date: Tue, 27 Apr 2021 00:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 23:28:25.677387
- Title: One Billion Audio Sounds from GPU-enabled Modular Synthesis
- Title(参考訳): GPU対応モジュール合成による10億のオーディオサウンド
- Authors: Joseph Turian and Jordie Shier and George Tzanetakis and Kirk McNally
and Max Henry
- Abstract要約: Synth1B1は10億の4秒合成音からなるマルチモーダルオーディオコーパスであり、文献のどのオーディオデータセットよりも100倍大きい。
Synth1B1サンプルは、1つのGPU上でリアルタイム(714MHz)よりも高速なオンザフライ16200xで決定的に生成される。
- 参考スコア(独自算出の注目度): 5.5022962399775945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release synth1B1, a multi-modal audio corpus consisting of 1 billion
4-second synthesized sounds, which is 100x larger than any audio dataset in the
literature. Each sound is paired with the corresponding latent parameters used
to generate it. synth1B1 samples are deterministically generated on-the-fly
16200x faster than real-time (714MHz) on a single GPU using torchsynth
(https://github.com/torchsynth/torchsynth), an open-source modular synthesizer
we release. Additionally, we release two new audio datasets: FM synth timbre
(https://zenodo.org/record/4677102) and subtractive synth pitch
(https://zenodo.org/record/4677097). Using these datasets, we demonstrate new
rank-based synthesizer-motivated evaluation criteria for existing audio
representations. Finally, we propose novel approaches to synthesizer
hyperparameter optimization, and demonstrate how perceptually-correlated
auditory distances could enable new applications in synthesizer design.
- Abstract(参考訳): conde nast japan all rights reserved.我々はsynth1b1をリリースした。synth1b1は、10億個の4秒の合成音からなるマルチモーダルオーディオコーパスで、文献のどのオーディオデータセットよりも100倍大きい。
各音は、それを生成するのに使用される潜在パラメータとペアリングされる。
Synth1B1サンプルは、オープンソースモジュールシンセサイザーである torchsynth (https://github.com/torchsynth/torchsynth) を使用して、1つのGPU上で、リアルタイム (714MHz) よりも高速にオンザフライで決定的に生成される。
FM Synth timbre (https://zenodo.org/record/4677102) と subtractive synth pitch (https://zenodo.org/record/4677097) の2つの新しいオーディオデータセットをリリースする。
これらのデータセットを用いて,既存の音声表現に対する新しいランクベースシンセサイザによる評価基準を示す。
最後に,シンセサイザーのハイパーパラメータ最適化のための新しい手法を提案し,知覚的に相関する聴覚距離がシンセサイザー設計における新たな応用を可能にすることを示す。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation [19.13182347908491]
音色を最適に復元するパラメータの集合を推定する問題は、重要かつ複雑な問題である。
我々は,この問題を解決するために,マルチモーダルなディープラーニングベースのパイプラインSound2 Synthと,ネットワーク構造であるPrime-Dilated Convolution(PDC)を提案する。
提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。
論文 参考訳(メタデータ) (2022-05-06T06:55:29Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。