Fugu-MT 論文翻訳(概要): A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features For Classical Vocal Performance

論文の概要: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features For Classical Vocal Performance

arxiv url: http://arxiv.org/abs/2401.09200v1
Date: Wed, 17 Jan 2024 13:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 15:48:47.369681
Title: A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features For Classical Vocal Performance
Title（参考訳）: クロマと音声特徴を用いた歌唱演奏のためのリアルタイム歌詞アライメントシステム
Authors: Jiyun Park, Sangeon Yong, Taegyun Kwon, and Juhan Nam
Abstract要約: リアルタイムの歌詞アライメントの目標は、ライブの歌唱音声を入力として、その歌詞内の正確な位置をオンザフライでピンポイントすることである。このタスクは、ライブコンサートやオペラの自動サブティットなど、現実世界のアプリケーションに役立てることができる。本稿では,2つのコントリビューションを持つ古典的ボーカル演奏のためのリアルタイム歌詞アライメントシステムを提案する。
参考スコア（独自算出の注目度）: 7.488651253072641
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of real-time lyrics alignment is to take live singing audio as input and to pinpoint the exact position within given lyrics on the fly. The task can benefit real-world applications such as the automatic subtitling of live concerts or operas. However, designing a real-time model poses a great challenge due to the constraints of only using past input and operating within a minimal latency. Furthermore, due to the lack of datasets for real-time models for lyrics alignment, previous studies have mostly evaluated with private in-house datasets, resulting in a lack of standard evaluation methods. This paper presents a real-time lyrics alignment system for classical vocal performances with two contributions. First, we improve the lyrics alignment algorithm by finding an optimal combination of chromagram and phonetic posteriorgram (PPG) that capture melodic and phonetics features of the singing voice, respectively. Second, we recast the Schubert Winterreise Dataset (SWD) which contains multiple performance renditions of the same pieces as an evaluation set for the real-time lyrics alignment.
Abstract（参考訳）: リアルタイム歌詞アライメントの目的は、ライブ歌唱音声を入力とし、与えられた歌詞内の正確な位置をオンザフライで特定することである。このタスクは、ライブコンサートやオペラの自動サブタイトのような現実世界のアプリケーションに役立つ。しかしながら、リアルタイムモデルの設計は、過去の入力のみを使用し、最小限のレイテンシで運用するという制約のため、大きな課題となる。さらに、歌詞アライメントのためのリアルタイムモデルのためのデータセットの欠如により、以前の研究は主にプライベートな社内データセットで評価されており、標準的な評価方法が欠如している。本稿では,クラシックな声楽演奏のためのリアルタイム歌詞アライメントシステムについて述べる。まず,歌唱音声の旋律的特徴と音韻的特徴をそれぞれ捉えたクロマグラムと音韻後音図(ppg)の最適な組み合わせを見出すことにより,歌詞アライメントアルゴリズムを改善する。第2に、リアルタイムの歌詞アライメントの評価セットとして、同じ曲の複数の演奏リフレクションを含むSchubert Winterreise Dataset (SWD) をリキャストする。

関連論文リスト

JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment [26.590667516155083]
拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
論文参考訳（メタデータ） (2025-07-28T14:34:02Z)
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment [6.806050368211496]
提案するText2midi-InferAlignは,推定時間におけるシンボリック音楽生成を改善する新しい手法である。提案手法は,テキスト・オーディオ・アライメントと推定中の音楽構造アライメントの報酬を利用して,生成した音楽が入力キャプションと整合するように促す。
論文参考訳（メタデータ） (2025-05-19T03:36:06Z)
SongGLM: Lyric-to-Melody Generation with 2D Alignment Encoding and Multi-Task Pre-Training [7.3026780262967685]
SongGLMは2次元アライメント符号化とマルチタスク事前学習を利用する歌詞からメロディ生成システムである。我々は,20万曲以上の英曲を事前学習と微調整に用いた大規模歌詞・旋律ペアデータセットを構築した。
論文参考訳（メタデータ） (2024-12-24T02:30:07Z)
Aligned Music Notation and Lyrics Transcription [8.411893399638046]
本稿では,Aligned Music Notation and Lyrics Transcription (AMNLT) の課題を紹介する。音楽記号、歌詞、それらの同期を共同で検討することで、声楽の完全な書き起こしに対処する。我々は、音楽と歌詞を別々に扱う従来の分詞法から、新しいエンドツーエンドソリューションまで、この課題に対処するための様々なアプローチを評価する。
論文参考訳（メタデータ） (2024-12-05T14:50:11Z)
Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文参考訳（メタデータ） (2024-10-27T18:15:18Z)
Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文参考訳（メタデータ） (2024-07-30T14:20:09Z)
Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文参考訳（メタデータ） (2024-07-15T14:36:13Z)
Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文参考訳（メタデータ） (2023-09-01T06:40:41Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-05-08T06:02:10Z)
A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文参考訳（メタデータ） (2021-10-13T07:42:35Z)
SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文参考訳（メタデータ） (2020-12-09T16:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。