論文の概要: Melody transcription via generative pre-training
- arxiv url: http://arxiv.org/abs/2212.01884v1
- Date: Sun, 4 Dec 2022 18:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:21:54.791920
- Title: Melody transcription via generative pre-training
- Title(参考訳): 生成前訓練によるメロディ転写
- Authors: Chris Donahue, John Thickstun, Percy Liang
- Abstract要約: メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
- 参考スコア(独自算出の注目度): 86.08508957229348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the central role that melody plays in music perception, it remains an
open challenge in music information retrieval to reliably detect the notes of
the melody present in an arbitrary music recording. A key challenge in melody
transcription is building methods which can handle broad audio containing any
number of instrument ensembles and musical styles - existing strategies work
well for some melody instruments or styles but not all. To confront this
challenge, we leverage representations from Jukebox (Dhariwal et al. 2020), a
generative model of broad music audio, thereby improving performance on melody
transcription by $20$% relative to conventional spectrogram features. Another
obstacle in melody transcription is a lack of training data - we derive a new
dataset containing $50$ hours of melody transcriptions from crowdsourced
annotations of broad music. The combination of generative pre-training and a
new dataset for this task results in $77$% stronger performance on melody
transcription relative to the strongest available baseline. By pairing our new
melody transcription approach with solutions for beat detection, key
estimation, and chord recognition, we build Sheet Sage, a system capable of
transcribing human-readable lead sheets directly from music audio.
Audio examples can be found at https://chrisdonahue.com/sheetsage and code at
https://github.com/chrisdonahue/sheetsage .
- Abstract(参考訳): 音楽知覚においてメロディが果たす中心的な役割にもかかわらず、任意の音楽録音に存在するメロディの音符を確実に検出することは、音楽情報検索においてオープンな課題である。
メロディの書き起こしにおける重要な課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを扱う方法を構築することだ。
この課題に対処するために,広帯域音楽音声の生成モデルであるJukebox (Dhariwal et al. 2020) の表現を活用し,従来のスペクトログラムの特徴と比較してメロディの書き起こし性能を20ドル%向上させる。
メロディの書き起こしのもうひとつの障害は、トレーニングデータの欠如です - 私たちは、幅広い音楽のクラウドソースアノテーションから、50ドルのメロディの書き起こしを含む新しいデータセットを導出します。
生成前訓練とこのタスクのための新しいデータセットの組み合わせにより、メロディの書き起こしが最強のベースラインと比較して7,7$%向上する。
新たなメロディ書き起こし手法をビート検出,キー推定,コード認識のソリューションと組み合わせることで,人間の読みやすいリードシートを音楽オーディオから直接書き起こせるシステムであるシートセージを開発した。
オーディオサンプルはhttps://chrisdonahue.com/sheetsageとhttps://github.com/chrisdonahue/sheetsageにある。
関連論文リスト
- Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Multi-Channel Automatic Music Transcription Using Tensor Algebra [0.0]
本報告は,既存の音楽の書き起こし技術を開発することを目的としている。
また、マルチチャンネル自動音楽書き起こしの概念も導入する。
論文 参考訳(メタデータ) (2021-07-23T14:07:40Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。