論文の概要: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance
- arxiv url: http://arxiv.org/abs/2401.09200v1
- Date: Wed, 17 Jan 2024 13:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:48:47.369681
- Title: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance
- Title(参考訳): クロマと音声特徴を用いた歌唱演奏のためのリアルタイム歌詞アライメントシステム
- Authors: Jiyun Park, Sangeon Yong, Taegyun Kwon, and Juhan Nam
- Abstract要約: リアルタイムの歌詞アライメントの目標は、ライブの歌唱音声を入力として、その歌詞内の正確な位置をオンザフライでピンポイントすることである。
このタスクは、ライブコンサートやオペラの自動サブティットなど、現実世界のアプリケーションに役立てることができる。
本稿では,2つのコントリビューションを持つ古典的ボーカル演奏のためのリアルタイム歌詞アライメントシステムを提案する。
- 参考スコア(独自算出の注目度): 7.488651253072641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of real-time lyrics alignment is to take live singing audio as input
and to pinpoint the exact position within given lyrics on the fly. The task can
benefit real-world applications such as the automatic subtitling of live
concerts or operas. However, designing a real-time model poses a great
challenge due to the constraints of only using past input and operating within
a minimal latency. Furthermore, due to the lack of datasets for real-time
models for lyrics alignment, previous studies have mostly evaluated with
private in-house datasets, resulting in a lack of standard evaluation methods.
This paper presents a real-time lyrics alignment system for classical vocal
performances with two contributions. First, we improve the lyrics alignment
algorithm by finding an optimal combination of chromagram and phonetic
posteriorgram (PPG) that capture melodic and phonetics features of the singing
voice, respectively. Second, we recast the Schubert Winterreise Dataset (SWD)
which contains multiple performance renditions of the same pieces as an
evaluation set for the real-time lyrics alignment.
- Abstract(参考訳): リアルタイム歌詞アライメントの目的は、ライブ歌唱音声を入力とし、与えられた歌詞内の正確な位置をオンザフライで特定することである。
このタスクは、ライブコンサートやオペラの自動サブタイトのような現実世界のアプリケーションに役立つ。
しかしながら、リアルタイムモデルの設計は、過去の入力のみを使用し、最小限のレイテンシで運用するという制約のため、大きな課題となる。
さらに、歌詞アライメントのためのリアルタイムモデルのためのデータセットの欠如により、以前の研究は主にプライベートな社内データセットで評価されており、標準的な評価方法が欠如している。
本稿では,クラシックな声楽演奏のためのリアルタイム歌詞アライメントシステムについて述べる。
まず,歌唱音声の旋律的特徴と音韻的特徴をそれぞれ捉えたクロマグラムと音韻後音図(ppg)の最適な組み合わせを見出すことにより,歌詞アライメントアルゴリズムを改善する。
第2に、リアルタイムの歌詞アライメントの評価セットとして、同じ曲の複数の演奏リフレクションを含むSchubert Winterreise Dataset (SWD) をリキャストする。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。
このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文 参考訳(メタデータ) (2024-07-30T14:20:09Z) - Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。