論文の概要: Latent Space Explorations of Singing Voice Synthesis using DDSP
- arxiv url: http://arxiv.org/abs/2103.07197v1
- Date: Fri, 12 Mar 2021 10:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 20:09:03.308718
- Title: Latent Space Explorations of Singing Voice Synthesis using DDSP
- Title(参考訳): DDSPを用いた歌声合成の潜時空間探索
- Authors: Juan Alonso and Cumhur Erkut
- Abstract要約: 機械学習ベースの歌声モデルは、大きなデータセットと長いトレーニング時間を必要とする。
ピッチと振幅のみを条件とした歌のような発声を出力できる軽量アーキテクチャを提案します。
新しいモデルをトレーニングし、実験するための2つのゼロ設定ツールを提供する。
- 参考スコア(独自算出の注目度): 2.7920304852537527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning based singing voice models require large datasets and
lengthy training times. In this work we present a lightweight architecture,
based on the Differentiable Digital Signal Processing (DDSP) library, that is
able to output song-like utterances conditioned only on pitch and amplitude,
after twelve hours of training using small datasets of unprocessed audio. The
results are promising, as both the melody and the singer's voice are
recognizable. In addition, we present two zero-configuration tools to train new
models and experiment with them. Currently we are exploring the latent space
representation, which is included in the DDSP library, but not in the original
DDSP examples. Our results indicate that the latent space improves both the
identification of the singer as well as the comprehension of the lyrics. Our
code is available at https://github.com/juanalonso/DDSP-singing-experiments
with links to the zero-configuration notebooks, and our sound examples are at
https://juanalonso.github.io/DDSP-singing-experiments/ .
- Abstract(参考訳): 機械学習ベースの歌声モデルは、大きなデータセットと長いトレーニング時間を必要とする。
本研究では,音高と振幅のみを条件とした音声を,12時間に及ぶ未処理音声の小さなデータセットを用いて出力することが可能な,微分可能ディジタル信号処理(DDSP)ライブラリに基づく軽量アーキテクチャを提案する。
メロディと歌手の声の両方が認識できるので、結果は有望である。
さらに,新しいモデルを訓練し,実験するためのゼロ設定ツールを2つ提示する。
現在、我々はDDSPライブラリに含まれるが、元のDDSPの例には含まれていない潜在空間表現を探っている。
以上の結果から,潜伏空間は歌唱者の識別と歌詞の理解の両方を改善することが示唆された。
私たちのコードは、ゼロコンフィグレーションノートブックへのリンク付きのhttps://github.com/juanalonso/ddsp-sing-experimentsで利用可能です。
関連論文リスト
- Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music
Audio Representation Learning [41.633972123961094]
Music2Vecは、さまざまなSSLアルゴリズムコンポーネントと音楽オーディオ録音のトリックを探索するフレームワークである。
我々のモデルは、後者のパラメータの2%未満で非常に小さいにもかかわらず、最先端(SOTA)音楽SSLモデルJukeboxに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T16:04:26Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Real-time Timbre Transfer and Sound Synthesis using DDSP [1.7942265700058984]
プラグインとして仮想シンセサイザーに埋め込まれたMagentaPライブラリのリアルタイム実装を紹介します。
実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。
ニューラルネットワークによって推定されるパラメータの処理と操作に使用できる直感的な高レベル制御のためのGUIを開発した。
論文 参考訳(メタデータ) (2021-03-12T11:49:51Z) - Anyone GAN Sing [0.0]
本論文では,Convolutional Long-Term Memory (ConvLSTM) ベースのGANを用いて,人の歌声を合成する方法を提案する。
私たちの仕事は、ChandnaらによるWGANSingにインスパイアされています。
論文 参考訳(メタデータ) (2021-02-22T14:30:58Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。