Fugu-MT 論文翻訳(概要): End-to-end lyrics Recognition with Voice to Singing Style Transfer

論文の概要: End-to-end lyrics Recognition with Voice to Singing Style Transfer

arxiv url: http://arxiv.org/abs/2102.08575v1
Date: Wed, 17 Feb 2021 04:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-18 14:26:36.864796
Title: End-to-end lyrics Recognition with Voice to Singing Style Transfer
Title（参考訳）: 歌唱スタイル転送によるエンドツーエンドの歌詞認識
Authors: Sakya Basak, Shrutina Agarwal, Sriram Ganapathy, Naoya Takahashi
Abstract要約: 本稿では,vocoderに基づく音声に基づく自然音声から歌声へ変換するデータ拡張手法を提案する。モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。
参考スコア（独自算出の注目度）: 42.442910911187454
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automatic transcription of monophonic/polyphonic music is a challenging task due to the lack of availability of large amounts of transcribed data. In this paper, we propose a data augmentation method that converts natural speech to singing voice based on vocoder based speech synthesizer. This approach, called voice to singing (V2S), performs the voice style conversion by modulating the F0 contour of the natural speech with that of a singing voice. The V2S model based style transfer can generate good quality singing voice thereby enabling the conversion of large corpora of natural speech to singing voice that is useful in building an E2E lyrics transcription system. In our experiments on monophonic singing voice data, the V2S style transfer provides a significant gain (relative improvements of 21%) for the E2E lyrics transcription system. We also discuss additional components like transfer learning and lyrics based language modeling to improve the performance of the lyrics transcription system.
Abstract（参考訳）: モノフォニック/ポリフォニック音楽の自動転写は、大量のデータを読み込むことができないため、難しい作業です。本論文では,自然音声をボーコーダに基づく音声合成器に基づく歌声に変換するデータ拡張法を提案する。この手法はV2S(Voice to singing)と呼ばれ、自然な音声のF0輪郭を歌声のそれと調整することで、音声スタイルの変換を行う。このv2sモデルに基づくスタイル転送は、高品質な歌声を生成することができ、e2e歌詞転写システムを構築するのに有用な、大きな自然音声コーパスを歌声に変換することができる。モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。また、トランスファーラーニングや歌詞ベースの言語モデリングなどの追加コンポーネントについても議論し、歌詞の転写システムのパフォーマンスを改善します。

関連論文リスト

A Unified Model For Voice and Accent Conversion In Speech and Singing using Self-Supervised Learning and Feature Extraction [0.0]
本稿では,話し声と歌声の両方を変換できる新しい音声変換モデルを提案する。このモデルの特長の1つは、ハイブリッド音声サンプルでアクセント変換を行う能力である。
論文参考訳（メタデータ） (2024-12-11T11:47:39Z)
Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。 S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文参考訳（メタデータ） (2024-09-15T21:19:24Z)
Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文参考訳（メタデータ） (2024-04-14T18:00:05Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。 StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文参考訳（メタデータ） (2023-12-17T15:26:16Z)
PPG-based singing voice conversion with adversarial representation learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文参考訳（メタデータ） (2020-10-28T08:03:27Z)
VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文参考訳（メタデータ） (2020-08-10T09:44:10Z)
DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。 DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文参考訳（メタデータ） (2020-07-09T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。