論文の概要: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance
- arxiv url: http://arxiv.org/abs/2401.09200v1
- Date: Wed, 17 Jan 2024 13:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:48:47.369681
- Title: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance
- Title(参考訳): クロマと音声特徴を用いた歌唱演奏のためのリアルタイム歌詞アライメントシステム
- Authors: Jiyun Park, Sangeon Yong, Taegyun Kwon, and Juhan Nam
- Abstract要約: リアルタイムの歌詞アライメントの目標は、ライブの歌唱音声を入力として、その歌詞内の正確な位置をオンザフライでピンポイントすることである。
このタスクは、ライブコンサートやオペラの自動サブティットなど、現実世界のアプリケーションに役立てることができる。
本稿では,2つのコントリビューションを持つ古典的ボーカル演奏のためのリアルタイム歌詞アライメントシステムを提案する。
- 参考スコア(独自算出の注目度): 7.488651253072641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of real-time lyrics alignment is to take live singing audio as input
and to pinpoint the exact position within given lyrics on the fly. The task can
benefit real-world applications such as the automatic subtitling of live
concerts or operas. However, designing a real-time model poses a great
challenge due to the constraints of only using past input and operating within
a minimal latency. Furthermore, due to the lack of datasets for real-time
models for lyrics alignment, previous studies have mostly evaluated with
private in-house datasets, resulting in a lack of standard evaluation methods.
This paper presents a real-time lyrics alignment system for classical vocal
performances with two contributions. First, we improve the lyrics alignment
algorithm by finding an optimal combination of chromagram and phonetic
posteriorgram (PPG) that capture melodic and phonetics features of the singing
voice, respectively. Second, we recast the Schubert Winterreise Dataset (SWD)
which contains multiple performance renditions of the same pieces as an
evaluation set for the real-time lyrics alignment.
- Abstract(参考訳): リアルタイム歌詞アライメントの目的は、ライブ歌唱音声を入力とし、与えられた歌詞内の正確な位置をオンザフライで特定することである。
このタスクは、ライブコンサートやオペラの自動サブタイトのような現実世界のアプリケーションに役立つ。
しかしながら、リアルタイムモデルの設計は、過去の入力のみを使用し、最小限のレイテンシで運用するという制約のため、大きな課題となる。
さらに、歌詞アライメントのためのリアルタイムモデルのためのデータセットの欠如により、以前の研究は主にプライベートな社内データセットで評価されており、標準的な評価方法が欠如している。
本稿では,クラシックな声楽演奏のためのリアルタイム歌詞アライメントシステムについて述べる。
まず,歌唱音声の旋律的特徴と音韻的特徴をそれぞれ捉えたクロマグラムと音韻後音図(ppg)の最適な組み合わせを見出すことにより,歌詞アライメントアルゴリズムを改善する。
第2に、リアルタイムの歌詞アライメントの評価セットとして、同じ曲の複数の演奏リフレクションを含むSchubert Winterreise Dataset (SWD) をリキャストする。
関連論文リスト
- Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Singing voice synthesis based on frame-level sequence-to-sequence models
considering vocal timing deviation [15.185681242504467]
発声タイミング偏差を考慮したフレームレベルのシーケンス・ツー・シーケンスモデルに基づく歌声合成(SVS)
SVSでは、実際の発声タイミングと音符開始タイミングの違いを考慮して、スコアで表される時間構造と歌唱のタイミングを同期させることが不可欠である。
論文 参考訳(メタデータ) (2023-01-05T19:00:10Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。