論文の概要: Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark
- arxiv url: http://arxiv.org/abs/2311.13987v1
- Date: Thu, 23 Nov 2023 13:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:44:15.356266
- Title: Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark
- Title(参考訳): jam-alt: フォーマッティングアウェアな歌詞書き起こしベンチマーク
- Authors: Ond\v{r}ej C\'ifka, Constantinos Dimitriou, Cheng-i Wang, Hendrik
Schreiber, Luke Miner, Fabian-Robert St\"oter
- Abstract要約: 本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
まず、ALTの評価に特化して書き起こしの完全な改訂を行った。
第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
- 参考スコア(独自算出の注目度): 2.6297569393407416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current automatic lyrics transcription (ALT) benchmarks focus exclusively on
word content and ignore the finer nuances of written lyrics including
formatting and punctuation, which leads to a potential misalignment with the
creative products of musicians and songwriters as well as listeners'
experiences. For example, line breaks are important in conveying information
about rhythm, emotional emphasis, rhyme, and high-level structure. To address
this issue, we introduce Jam-ALT, a new lyrics transcription benchmark based on
the JamendoLyrics dataset. Our contribution is twofold. Firstly, a complete
revision of the transcripts, geared specifically towards ALT evaluation by
following a newly created annotation guide that unifies the music industry's
guidelines, covering aspects such as punctuation, line breaks, spelling,
background vocals, and non-word sounds. Secondly, a suite of evaluation metrics
designed, unlike the traditional word error rate, to capture such phenomena. We
hope that the proposed benchmark contributes to the ALT task, enabling more
precise and reliable assessments of transcription systems and enhancing the
user experience in lyrics applications such as subtitle renderings for live
captioning or karaoke.
- Abstract(参考訳): 現在のalt(automatic lyrics transcription)ベンチマークは、言語コンテンツのみに焦点を当てており、書式や句読点を含む歌詞の微妙なニュアンスを無視しているため、ミュージシャンやソングライターの創造的製品やリスナーの経験との潜在的な不一致につながる可能性がある。
例えば、ラインブレークはリズム、感情強調、韻律、高レベルの構造に関する情報を伝える上で重要である。
この問題に対処するため,JamendoLyricsデータセットをベースとした新しい歌詞書き起こしベンチマークであるJam-ALTを導入する。
私たちの貢献は2倍です。
まず、書き起こしの完全な改訂は、音楽産業のガイドラインを統一し、句読点、線切れ、綴り、バックグラウンドボーカル、非単語音といった側面をカバーする、新たに作成された注釈ガイドに従うことで、ALTの評価に特化している。
第二に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
提案するベンチマークがALTタスクに寄与し,より正確で信頼性の高い書き起こしシステムの評価と,字幕の字幕表示やカラオケなどの歌詞アプリケーションにおけるユーザエクスペリエンスの向上を期待する。
関連論文リスト
- REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。
このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文 参考訳(メタデータ) (2024-07-30T14:20:09Z) - A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance [7.488651253072641]
リアルタイムの歌詞アライメントの目標は、ライブの歌唱音声を入力として、その歌詞内の正確な位置をオンザフライでピンポイントすることである。
このタスクは、ライブコンサートやオペラの自動サブティットなど、現実世界のアプリケーションに役立てることができる。
本稿では,2つのコントリビューションを持つ古典的ボーカル演奏のためのリアルタイム歌詞アライメントシステムを提案する。
論文 参考訳(メタデータ) (2024-01-17T13:25:32Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。