論文の概要: Unaligned Supervision For Automatic Music Transcription in The Wild
- arxiv url: http://arxiv.org/abs/2204.13668v1
- Date: Thu, 28 Apr 2022 17:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:12:57.513367
- Title: Unaligned Supervision For Automatic Music Transcription in The Wild
- Title(参考訳): 音楽の自動書き起こしのためのUnaligned Supervision
- Authors: Ben Maman and Amit H. Bermano
- Abstract要約: NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-instrument Automatic Music Transcription (AMT), or the decoding of a
musical recording into semantic musical content, is one of the holy grails of
Music Information Retrieval. Current AMT approaches are restricted to piano and
(some) guitar recordings, due to difficult data collection. In order to
overcome data collection barriers, previous AMT approaches attempt to employ
musical scores in the form of a digitized version of the same song or piece.
The scores are typically aligned using audio features and strenuous human
intervention to generate training labels. We introduce NoteEM, a method for
simultaneously training a transcriber and aligning the scores to their
corresponding performances, in a fully-automated process. Using this unaligned
supervision scheme, complemented by pseudo-labels and pitch-shift augmentation,
our method enables training on in-the-wild recordings with unprecedented
accuracy and instrumental variety. Using only synthetic data and unaligned
supervision, we report SOTA note-level accuracy of the MAPS dataset, and large
favorable margins on cross-dataset evaluations. We also demonstrate robustness
and ease of use; we report comparable results when training on a small, easily
obtainable, self-collected dataset, and we propose alternative labeling to the
MusicNet dataset, which we show to be more accurate. Our project page is
available at https://benadar293.github.io
- Abstract(参考訳): マルチインストゥルメント自動音楽書き起こし(multi-instrument automatic music transcription、amt)は、音楽情報検索の聖杯の一つである。
現在のAMTアプローチは、難しいデータ収集のため、ピアノと(一部)ギター録音に制限されている。
データ収集障壁を克服するために、以前のATTアプローチでは、同じ曲や曲のデジタル版という形で楽譜を取り入れようと試みていた。
スコアは通常、オーディオ機能と、トレーニングラベルを生成するための厳格な人間の介入を使って調整される。
完全自動化プロセスにおいて,トランクレータを同時にトレーニングし,スコアを対応するパフォーマンスに合わせる手法であるNoteEMを導入する。
擬似ラベルとピッチシフト強化を補完するこのアンアライメント・コメンデーション・スキームを用いて,前代未聞の正確さと楽器の多様性を訓練することができる。
合成データと非整合性監視のみを用いて,MAPSデータセットのSOTAノートレベルの精度と,データセット間の評価において良好なマージンを報告した。
我々はまた、ロバストさと使いやすさを実証し、小規模で容易に入手可能な自己収集データセットでのトレーニングで同等の結果を報告し、MusicNetデータセットの代替ラベルを提案し、より正確であることを示す。
私たちのプロジェクトページはhttps://benadar293.github.ioで閲覧できます。
関連論文リスト
- End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Development of Large Annotated Music Datasets using HMM-based Forced Viterbi Alignment [0.0]
本稿では,任意の楽器のデータセットを生成するための,合理的で効率的な手法を提案する。
書き起こしのオンセットは手作業で検証され、ラベルは最大10ms、平均は5msである。
この方法は、異なる機器のためのATTシステムを構築するための具体的なデータセットを構築するための予備的なステップとして役立つ。
論文 参考訳(メタデータ) (2024-08-27T09:06:29Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。