論文の概要: Count The Notes: Histogram-Based Supervision for Automatic Music Transcription
- arxiv url: http://arxiv.org/abs/2511.14250v1
- Date: Tue, 18 Nov 2025 08:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.013868
- Title: Count The Notes: Histogram-Based Supervision for Automatic Music Transcription
- Title(参考訳): Count The Notes: Histogram-based Supervision for Automatic Music Transcription (英語)
- Authors: Jonathan Yaffe, Ben Maman, Meinard Müller, Amit H. Bermano,
- Abstract要約: 我々は,局所的なアライメントの必要性を排除した新しいAMTフレームワークであるCountEMを紹介する。
CountEMは、注記発生数のみに基づいて予測を反復的に洗練し、アノテーションの労力を大幅に削減する。
ピアノ、ギター、多構成データセットの実験は、CountEMが既存の弱教師付き手法と一致または超えることを示した。
- 参考スコア(独自算出の注目度): 18.777036975452422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Music Transcription (AMT) converts audio recordings into symbolic musical representations. Training deep neural networks (DNNs) for AMT typically requires strongly aligned training pairs with precise frame-level annotations. Since creating such datasets is costly and impractical for many musical contexts, weakly aligned approaches using segment-level annotations have gained traction. However, existing methods often rely on Dynamic Time Warping (DTW) or soft alignment loss functions, both of which still require local semantic correspondences, making them error-prone and computationally expensive. In this article, we introduce CountEM, a novel AMT framework that eliminates the need for explicit local alignment by leveraging note event histograms as supervision, enabling lighter computations and greater flexibility. Using an Expectation-Maximization (EM) approach, CountEM iteratively refines predictions based solely on note occurrence counts, significantly reducing annotation efforts while maintaining high transcription accuracy. Experiments on piano, guitar, and multi-instrument datasets demonstrate that CountEM matches or surpasses existing weakly supervised methods, improving AMT's robustness, scalability, and efficiency. Our project page is available at https://yoni-yaffe.github.io/count-the-notes.
- Abstract(参考訳): Automatic Music Transcription (AMT)は、オーディオ録音をシンボリックな音楽表現に変換する。
AMTのためのディープニューラルネットワーク(DNN)のトレーニングは通常、正確なフレームレベルのアノテーションと強く整合したトレーニングペアを必要とする。
このようなデータセットの作成は多くの音楽的文脈において費用がかかり実用的ではないため、セグメントレベルのアノテーションを用いた弱い整合性アプローチが注目を集めている。
しかし、既存の手法は動的時間ウォーピング(DTW)やソフトアライメント損失関数に依存しており、どちらも局所的な意味的対応を必要とするため、エラーを起こしやすく、計算コストも高い。
本稿では,注記イベントヒストグラムを監督として活用し,より軽量な計算と柔軟性を向上させることで,局所的アライメントの必要性を解消する新しいAMTフレームワークであるCountEMを紹介する。
expectation-Maximization (EM) アプローチを用いることで、CountEM はノートの発生回数のみに基づいて予測を反復的に洗練し、高い転写精度を維持しながらアノテーションの労力を大幅に削減する。
ピアノ、ギター、多機能データセットの実験は、CountEMが既存の弱教師付き手法と一致または超え、ATTの堅牢性、拡張性、効率を向上させることを示した。
私たちのプロジェクトページはhttps://yoni-yaffe.github.io/count-the-notes.comで公開されています。
関連論文リスト
- End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - FretNet: Continuous-Valued Pitch Contour Streaming for Polyphonic Guitar
Tablature Transcription [0.34376560669160383]
GTT(Guitar Tablature Transcription)のような特定の応用では、連続的に評価されたピッチの輪郭を推定することがより意味がある。
連続的に評価されたピッチの輪郭を推定する GTT の定式化について述べる。
提案手法は, MPEの分解能を著しく向上し, ベースラインモデルと競合するタブレート推定結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-06T14:51:27Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。