論文の概要: Unaligned Supervision For Automatic Music Transcription in The Wild
- arxiv url: http://arxiv.org/abs/2204.13668v1
- Date: Thu, 28 Apr 2022 17:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:12:57.513367
- Title: Unaligned Supervision For Automatic Music Transcription in The Wild
- Title(参考訳): 音楽の自動書き起こしのためのUnaligned Supervision
- Authors: Ben Maman and Amit H. Bermano
- Abstract要約: NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-instrument Automatic Music Transcription (AMT), or the decoding of a
musical recording into semantic musical content, is one of the holy grails of
Music Information Retrieval. Current AMT approaches are restricted to piano and
(some) guitar recordings, due to difficult data collection. In order to
overcome data collection barriers, previous AMT approaches attempt to employ
musical scores in the form of a digitized version of the same song or piece.
The scores are typically aligned using audio features and strenuous human
intervention to generate training labels. We introduce NoteEM, a method for
simultaneously training a transcriber and aligning the scores to their
corresponding performances, in a fully-automated process. Using this unaligned
supervision scheme, complemented by pseudo-labels and pitch-shift augmentation,
our method enables training on in-the-wild recordings with unprecedented
accuracy and instrumental variety. Using only synthetic data and unaligned
supervision, we report SOTA note-level accuracy of the MAPS dataset, and large
favorable margins on cross-dataset evaluations. We also demonstrate robustness
and ease of use; we report comparable results when training on a small, easily
obtainable, self-collected dataset, and we propose alternative labeling to the
MusicNet dataset, which we show to be more accurate. Our project page is
available at https://benadar293.github.io
- Abstract(参考訳): マルチインストゥルメント自動音楽書き起こし(multi-instrument automatic music transcription、amt)は、音楽情報検索の聖杯の一つである。
現在のAMTアプローチは、難しいデータ収集のため、ピアノと(一部)ギター録音に制限されている。
データ収集障壁を克服するために、以前のATTアプローチでは、同じ曲や曲のデジタル版という形で楽譜を取り入れようと試みていた。
スコアは通常、オーディオ機能と、トレーニングラベルを生成するための厳格な人間の介入を使って調整される。
完全自動化プロセスにおいて,トランクレータを同時にトレーニングし,スコアを対応するパフォーマンスに合わせる手法であるNoteEMを導入する。
擬似ラベルとピッチシフト強化を補完するこのアンアライメント・コメンデーション・スキームを用いて,前代未聞の正確さと楽器の多様性を訓練することができる。
合成データと非整合性監視のみを用いて,MAPSデータセットのSOTAノートレベルの精度と,データセット間の評価において良好なマージンを報告した。
我々はまた、ロバストさと使いやすさを実証し、小規模で容易に入手可能な自己収集データセットでのトレーニングで同等の結果を報告し、MusicNetデータセットの代替ラベルを提案し、より正確であることを示す。
私たちのプロジェクトページはhttps://benadar293.github.ioで閲覧できます。
関連論文リスト
- Annotation-free Automatic Music Transcription with Scalable Synthetic
Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - MT3: Multi-Task Multitrack Music Transcription [7.5947187537718905]
汎用トランスフォーマーモデルがマルチタスク自動音楽転写(AMT)を実現できることを示す。
この統合トレーニングフレームワークは、さまざまなデータセットにわたる高品質な書き起こし結果を実現する。
論文 参考訳(メタデータ) (2021-11-04T17:19:39Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。