論文の概要: Content Based Singing Voice Extraction From a Musical Mixture
- arxiv url: http://arxiv.org/abs/2002.04933v2
- Date: Mon, 17 Feb 2020 12:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:40:29.407044
- Title: Content Based Singing Voice Extraction From a Musical Mixture
- Title(参考訳): 音楽ミキサーからのコンテンツに基づく歌声抽出
- Authors: Pritish Chandna, Merlijn Blaauw, Jordi Bonada, Emilia Gomez
- Abstract要約: 本稿では,その基礎となる言語内容に基づいて,歌唱音声信号の抽出手法を提案する。
我々のモデルはエンコーダデコーダアーキテクチャに従っており、ボーカルとの混合音のスペクトルの等級成分を入力とする。
モデルのエンコーダ部は、教師ネットワークを用いて知識蒸留により訓練され、コンテンツ埋め込みを学習し、それを復号して対応するボコーダ特徴を生成する。
- 参考スコア(独自算出の注目度): 18.262323712986973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a deep learning based methodology for extracting the singing voice
signal from a musical mixture based on the underlying linguistic content. Our
model follows an encoder decoder architecture and takes as input the magnitude
component of the spectrogram of a musical mixture with vocals. The encoder part
of the model is trained via knowledge distillation using a teacher network to
learn a content embedding, which is decoded to generate the corresponding
vocoder features. Using this methodology, we are able to extract the
unprocessed raw vocal signal from the mixture even for a processed mixture
dataset with singers not seen during training. While the nature of our system
makes it incongruous with traditional objective evaluation metrics, we use
subjective evaluation via listening tests to compare the methodology to
state-of-the-art deep learning based source separation algorithms. We also
provide sound examples and source code for reproducibility.
- Abstract(参考訳): 本稿では,基礎となる言語内容に基づいて歌唱音声信号を抽出するための深層学習に基づく手法を提案する。
我々のモデルはエンコーダデコーダアーキテクチャに従っており、ボーカルとの混合音のスペクトルの等級成分を入力とする。
モデルのエンコーダ部は、教師ネットワークを用いて知識蒸留により訓練され、コンテンツ埋め込みを学習し、それを復号して対応するボコーダ特徴を生成する。
この手法を用いることで、訓練中に見えない歌手との混合データセットであっても、未処理の生音声信号を混合から抽出することができる。
本システムの性質は従来の客観的評価指標と一致しないが,聞き取りテストを通じて主観評価を行い,最先端のディープラーニングに基づくソース分離アルゴリズムと比較する。
再現性のためのサンプルやソースコードも提供します。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Semi-supervised Learning for Singing Synthesis Timbre [22.75251024528604]
音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
論文 参考訳(メタデータ) (2020-11-05T13:33:34Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Speech-to-Singing Conversion in an Encoder-Decoder Framework [38.111942306157545]
我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
論文 参考訳(メタデータ) (2020-02-16T15:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。