論文の概要: Content based singing voice source separation via strong conditioning
using aligned phonemes
- arxiv url: http://arxiv.org/abs/2008.02070v1
- Date: Wed, 5 Aug 2020 12:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 19:06:41.375932
- Title: Content based singing voice source separation via strong conditioning
using aligned phonemes
- Title(参考訳): アライメント音素を用いた強コンディショニングによるコンテンツベース歌唱音源分離
- Authors: Gabriel Meseguer-Brocal, Geoffroy Peeters
- Abstract要約: 本稿では,音声情報とともに単語レベルで歌詞を時間順に並べたマルチモーダル・マルチトラック・データセットを提案する。
歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
- 参考スコア(独自算出の注目度): 7.599399338954308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Informed source separation has recently gained renewed interest with the
introduction of neural networks and the availability of large multitrack
datasets containing both the mixture and the separated sources. These
approaches use prior information about the target source to improve separation.
Historically, Music Information Retrieval researchers have focused primarily on
score-informed source separation, but more recent approaches explore
lyrics-informed source separation. However, because of the lack of multitrack
datasets with time-aligned lyrics, models use weak conditioning with
non-aligned lyrics. In this paper, we present a multimodal multitrack dataset
with lyrics aligned in time at the word level with phonetic information as well
as explore strong conditioning using the aligned phonemes. Our model follows a
U-Net architecture and takes as input both the magnitude spectrogram of a
musical mixture and a matrix with aligned phonetic information. The phoneme
matrix is embedded to obtain the parameters that control Feature-wise Linear
Modulation (FiLM) layers. These layers condition the U-Net feature maps to
adapt the separation process to the presence of different phonemes via affine
transformations. We show that phoneme conditioning can be successfully applied
to improve singing voice source separation.
- Abstract(参考訳): インフォームドソース分離は、ニューラルネットワークの導入と、ミックスと分離されたソースの両方を含む大規模なマルチトラックデータセットの可用性により、最近再び関心を集めている。
これらのアプローチでは、ターゲットソースに関する事前情報を使用して分離を改善する。
歴史的に音楽情報検索研究者は、主にスコアインフォームドソース分離に焦点を当ててきたが、近年では歌詞インフォームドソース分離を探求している。
しかし、時間順の歌詞を持つマルチトラックデータセットが不足しているため、モデルは非順序の歌詞を持つ弱い条件付けを使用する。
本稿では,単語レベルで歌詞を単語レベルでアライメントしたマルチモーダルマルチトラックデータセットと,アライメントされた音素を用いた強いコンディショニングについて述べる。
我々のモデルはU-Netアーキテクチャに従っており、音楽ミックスの等級スペクトルと、整列した音声情報を持つ行列の両方を入力としている。
音素行列は、FiLM(Feature-wise Linear Modulation)層を制御するパラメータを得るために埋め込まれている。
これらの層は、分離過程をアフィン変換を介して異なる音素の存在に適応させるためにU-Net特徴写像を条件付ける。
歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
関連論文リスト
- MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation [10.456845656569444]
複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。
複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
論文 参考訳(メタデータ) (2022-11-14T12:27:35Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z) - Source Separation and Depthwise Separable Convolutions for Computer
Audition [0.0]
我々は,電子ダンス音楽データセットを用いて,深度的に分離可能な畳み込みニューラルネットワークを訓練する。
ソース分離は,標準の単一スペクトログラム手法と比較して,限られたデータ設定における分類性能を向上させることが示されている。
論文 参考訳(メタデータ) (2020-12-06T19:30:26Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。