論文の概要: Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework
- arxiv url: http://arxiv.org/abs/2406.16315v1
- Date: Mon, 24 Jun 2024 04:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.298682
- Title: Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework
- Title(参考訳): ニューラルネットワークと合成フレームワークを用いた終端から終端へのニューラルシンガーダイアリゼーションのための歌データクリーニング
- Authors: Hokuto Munakata, Ryo Terashima, Yusuke Fujita,
- Abstract要約: 提案モデルでは,ポピュラー音楽に共通する合唱歌唱で歌データを変換する。
我々は、事前訓練されたNANSY++を利用して、コーランの歌唱をクリーンでオーバーラップされていないオーディオに変換する。
注釈付きデュエット曲を用いてデータセットを用いて訓練したEDEモデルを実験的に評価した。
- 参考スコア(独自算出の注目度): 7.12217278294376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a data cleansing method that utilizes a neural analysis and synthesis (NANSY++) framework to train an end-to-end neural diarization model (EEND) for singer diarization. Our proposed model converts song data with choral singing which is commonly contained in popular music and unsuitable for generating a simulated dataset to the solo singing data. This cleansing is based on NANSY++, which is a framework trained to reconstruct an input non-overlapped audio signal. We exploit the pre-trained NANSY++ to convert choral singing into clean, non-overlapped audio. This cleansing process mitigates the mislabeling of choral singing to solo singing and helps the effective training of EEND models even when the majority of available song data contains choral singing sections. We experimentally evaluated the EEND model trained with a dataset using our proposed method using annotated popular duet songs. As a result, our proposed method improved 14.8 points in diarization error rate.
- Abstract(参考訳): 本稿では、ニューラル分析合成(NANSY++)フレームワークを用いて、歌手ダイアリゼーションのためのエンドツーエンドニューラルダイアリゼーションモデル(EEND)を訓練するデータ浄化手法を提案する。
提案モデルでは,歌唱データと合唱歌唱データを変換し,歌唱データに模擬データセットを生成するのに適さない。
このクリーニングはNANSY++に基づいており、入力された非オーバーラップオーディオ信号を再構築するフレームワークである。
我々は、事前訓練されたNANSY++を利用して、コーランの歌唱をクリーンでオーバーラップされていないオーディオに変換する。
合唱と独唱との混同を軽減し、合唱部が多数含まれている場合でも、EENDモデルの効果的な訓練を支援する。
提案手法を用いてデータセットを用いて訓練したEDEモデルを,注釈付きポピュラーなデュエット曲を用いて実験的に評価した。
その結果,提案手法はダイアリゼーション誤差率を14.8ポイント改善した。
関連論文リスト
- Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Step-unrolled Denoising Autoencoders for Text Generation [17.015573262373742]
本稿では,SUNDAE(Step-unrolled Denoising Autoencoder)というテキスト生成モデルを提案する。
SUNDAEはトークンの列に繰り返し適用され、ランダムな入力から始まり、収束するまで毎回改善される。
拡散法よりも少ないイテレーションで収束する単純な改良演算子を提案する。
論文 参考訳(メタデータ) (2021-12-13T16:00:33Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Anyone GAN Sing [0.0]
本論文では,Convolutional Long-Term Memory (ConvLSTM) ベースのGANを用いて,人の歌声を合成する方法を提案する。
私たちの仕事は、ChandnaらによるWGANSingにインスパイアされています。
論文 参考訳(メタデータ) (2021-02-22T14:30:58Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。
ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。
提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-05T10:05:44Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。