論文の概要: LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection
- arxiv url: http://arxiv.org/abs/2510.08580v1
- Date: Tue, 16 Sep 2025 02:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.108371
- Title: LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection
- Title(参考訳): LadderSym:音楽練習誤差検出のためのマルチモーダルインターリーブ変換器
- Authors: Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos, James C. Davis, George K. Thiruvathukal, Kristen Yeon-Ji Yun, Yung-Hsiang Lu,
- Abstract要約: 本稿では,新しい音楽誤り検出手法であるtextitLadderSymを紹介する。
textitLadderSymは、最先端のアプローチに関する2つの重要な観察によって導かれる。
我々は,各ノートカテゴリのF1スコアを測定し,textitMAESTRO-E と textitCocoChorales-E データセットについて評価を行った。
- 参考スコア(独自算出の注目度): 6.949059287049708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music learners can greatly benefit from tools that accurately detect errors in their practice. Existing approaches typically compare audio recordings to music scores using heuristics or learnable models. This paper introduces \textit{LadderSym}, a novel Transformer-based method for music error detection. \textit{LadderSym} is guided by two key observations about the state-of-the-art approaches: (1) late fusion limits inter-stream alignment and cross-modality comparison capability; and (2) reliance on score audio introduces ambiguity in the frequency spectrum, degrading performance in music with concurrent notes. To address these limitations, \textit{LadderSym} introduces (1) a two-stream encoder with inter-stream alignment modules to improve audio comparison capabilities and error detection F1 scores, and (2) a multimodal strategy that leverages both audio and symbolic scores by incorporating symbolic representations as decoder prompts, reducing ambiguity and improving F1 scores. We evaluate our method on the \textit{MAESTRO-E} and \textit{CocoChorales-E} datasets by measuring the F1 score for each note category. Compared to the previous state of the art, \textit{LadderSym} more than doubles F1 for missed notes on \textit{MAESTRO-E} (26.8\% $\rightarrow$ 56.3\%) and improves extra note detection by 14.4 points (72.0\% $\rightarrow$ 86.4\%). Similar gains are observed on \textit{CocoChorales-E}. This work introduces general insights about comparison models that could inform sequence evaluation tasks for reinforcement Learning, human skill assessment, and model evaluation.
- Abstract(参考訳): 音楽学習者は、練習中のエラーを正確に検出するツールの恩恵を受けることができる。
既存のアプローチは通常、ヒューリスティックスや学習可能なモデルを使用して、オーディオ録音と音楽スコアを比較する。
本稿では,音楽誤り検出のための新しいトランスフォーマー方式である「textit{LadderSym}」を紹介する。
The-the-art approach: 1) late fusion limits inter-stream alignment and cross-modality comparison capabilities; (2) reliance on score audio introduced ambiguity in the frequency spectrum, degrading performance with concurrent notes。
これらの制限に対処するため、(1)ストリーム間アライメントモジュールを備えた2ストリームエンコーダを導入し、比較性能と誤り検出F1スコアを改善し、(2)デコーダのプロンプトとして記号表現を組み込んだマルチモーダル戦略を導入し、あいまいさを低減し、F1スコアを改善する。
本手法は,各音符カテゴリーのF1スコアを測定し,<textit{MAESTRO-E} と \textit{CocoChorales-E} のデータセットを用いて評価する。
それまでの最先端と比較して、 \textit{LadderSym} は \textit{MAESTRO-E} (26.8\% $\rightarrow $ 56.3\%) の欠落したメモに対して F1 を2倍以上にし、14.4ポイント (72.0\% $\rightarrow $ 86.4\%) の余分なメモ検出を改善する。
同様の利得は \textit{CocoChorales-E} で観測される。
本研究は、強化学習、人的スキル評価、モデル評価のためのシーケンス評価タスクを通知できる比較モデルに関する一般的な知見を紹介する。
関連論文リスト
- RUMAA: Repeat-Aware Unified Music Audio Analysis for Score-Performance Alignment, Transcription, and Mistake Detection [17.45655063331199]
RUMAAは、音楽パフォーマンス分析のためのトランスフォーマーベースのフレームワークである。
スコア・ツー・パフォーマンス・アライメント、スコア・インフォームド・書き起こし、ミス検出をほぼエンドツーエンドで統一する。
論文 参考訳(メタデータ) (2025-07-16T12:13:13Z) - Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。
音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。
本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T07:04:20Z) - Just Label the Repeats for In-The-Wild Audio-to-Score Alignment [7.7805314458791806]
In-the-wild Performance Audioとそれに対応する楽譜スキャン(画像)のアライメントのための効率的なワークフローを提案する。
提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業と比較してアライメント精度が150%向上したことを示す。
論文 参考訳(メタデータ) (2024-11-11T23:05:02Z) - Exploring Tokenization Methods for Multitrack Sheet Music Generation [48.8206920811097]
本研究ではABC表記におけるマルチトラックシート音楽のトークン化について検討する。
計算効率と音楽性の両方の観点から、実験結果から、バーストリームパッチングが全体として最も優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-23T06:19:48Z) - End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - An Comparative Analysis of Different Pitch and Metrical Grid Encoding
Methods in the Task of Sequential Music Generation [4.941630596191806]
本稿では,トークンベースの逐次音楽生成モデルの性能に及ぼすピッチとメーターの影響について分析する。
グリッド解像度は0(アブレーション),1(バーレベル),4(ダウンビートレベル),4(ダウンビートレベル),8(ダウンビートレベル),64(64番目のノートグリッドレベル)までのシングルトークンアプローチとマルチトークンアプローチを比較する。
以上の結果から,クラスオクターブの符号化は,ピッチ関連測定値に基づいてグラニュル化したMIDI符号化よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-01-31T03:19:50Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。