論文の概要: End-to-end lyrics Recognition with Voice to Singing Style Transfer
- arxiv url: http://arxiv.org/abs/2102.08575v1
- Date: Wed, 17 Feb 2021 04:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:26:36.864796
- Title: End-to-end lyrics Recognition with Voice to Singing Style Transfer
- Title(参考訳): 歌唱スタイル転送によるエンドツーエンドの歌詞認識
- Authors: Sakya Basak, Shrutina Agarwal, Sriram Ganapathy, Naoya Takahashi
- Abstract要約: 本稿では,vocoderに基づく音声に基づく自然音声から歌声へ変換するデータ拡張手法を提案する。
モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。
- 参考スコア(独自算出の注目度): 42.442910911187454
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic transcription of monophonic/polyphonic music is a challenging task
due to the lack of availability of large amounts of transcribed data. In this
paper, we propose a data augmentation method that converts natural speech to
singing voice based on vocoder based speech synthesizer. This approach, called
voice to singing (V2S), performs the voice style conversion by modulating the
F0 contour of the natural speech with that of a singing voice. The V2S model
based style transfer can generate good quality singing voice thereby enabling
the conversion of large corpora of natural speech to singing voice that is
useful in building an E2E lyrics transcription system. In our experiments on
monophonic singing voice data, the V2S style transfer provides a significant
gain (relative improvements of 21%) for the E2E lyrics transcription system. We
also discuss additional components like transfer learning and lyrics based
language modeling to improve the performance of the lyrics transcription
system.
- Abstract(参考訳): モノフォニック/ポリフォニック音楽の自動転写は、大量のデータを読み込むことができないため、難しい作業です。
本論文では,自然音声をボーコーダに基づく音声合成器に基づく歌声に変換するデータ拡張法を提案する。
この手法はV2S(Voice to singing)と呼ばれ、自然な音声のF0輪郭を歌声のそれと調整することで、音声スタイルの変換を行う。
このv2sモデルに基づくスタイル転送は、高品質な歌声を生成することができ、e2e歌詞転写システムを構築するのに有用な、大きな自然音声コーパスを歌声に変換することができる。
モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。
また、トランスファーラーニングや歌詞ベースの言語モデリングなどの追加コンポーネントについても議論し、歌詞の転写システムのパフォーマンスを改善します。
関連論文リスト
- StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [65.56386869666025]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。