論文の概要: Detecting Music Performance Errors with Transformers
- arxiv url: http://arxiv.org/abs/2501.02030v1
- Date: Fri, 03 Jan 2025 07:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:52.241698
- Title: Detecting Music Performance Errors with Transformers
- Title(参考訳): 変圧器を用いた演奏誤りの検出
- Authors: Benjamin Shiue-Hal Chou, Purvish Jajal, Nicholas John Eliopoulos, Tim Nadolsky, Cheng-Yun Yang, Nikita Ravi, James C. Davis, Kristen Yeon-Ji Yun, Yung-Hsiang Lu,
- Abstract要約: 既存の音楽誤り検出ツールは自動アライメントに依存している。
音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。
本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
- 参考スコア(独自算出の注目度): 3.6837762419929168
- License:
- Abstract: Beginner musicians often struggle to identify specific errors in their performances, such as playing incorrect notes or rhythms. There are two limitations in existing tools for music error detection: (1) Existing approaches rely on automatic alignment; therefore, they are prone to errors caused by small deviations between alignment targets.; (2) There is a lack of sufficient data to train music error detection models, resulting in over-reliance on heuristics. To address (1), we propose a novel transformer model, Polytune, that takes audio inputs and outputs annotated music scores. This model can be trained end-to-end to implicitly align and compare performance audio with music scores through latent space representations. To address (2), we present a novel data generation technique capable of creating large-scale synthetic music error datasets. Our approach achieves a 64.1% average Error Detection F1 score, improving upon prior work by 40 percentage points across 14 instruments. Additionally, compared with existing transcription methods repurposed for music error detection, our model can handle multiple instruments. Our source code and datasets are available at https://github.com/ben2002chou/Polytune.
- Abstract(参考訳): ベギンナーのミュージシャンは、誤った音符やリズムを弾くなど、演奏中の特定の誤りを特定するのに苦労することが多い。
1)既存のアプローチは自動アライメントに依存しているため、アライメント対象間の小さなずれによるエラーが生じる傾向がある。
; 2) 音楽誤り検出モデルの訓練には十分なデータが不足しており, ヒューリスティックスへの過度な依存が生じる。
1)に対処するために,音声入力とアノテートされた楽譜を出力する新しい変圧器モデル,Polytuneを提案する。
このモデルはエンド・ツー・エンドにトレーニングすることができ、潜在空間表現を通してパフォーマンス・オーディオと音楽のスコアを暗黙的に調整し比較することができる。
2) に対処するために,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
提案手法は平均誤差検出F1スコアを64.1%達成し,14の楽器に対して40ポイント向上した。
さらに,音楽誤り検出に再利用可能な既存の書き起こし手法と比較して,本モデルでは複数の楽器を扱える。
ソースコードとデータセットはhttps://github.com/ben 2002chou/Polytune.comで公開されています。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Learning correlated noise in a 39-qubit quantum processor [0.38073142980732994]
誤り訂正量子コンピュータの構築は、候補デバイス上でのノイズの測定とモデリングに大きく依存する。
本稿では, シンドローム抽出回路を動作させるデバイスにおいて, ノイズの詳細情報を抽出する手法を提案する。
様々な高度化のノイズモデルを構築するのに必要な情報を20個のデータキュービットから抽出する方法を示す。
論文 参考訳(メタデータ) (2023-03-01T19:07:35Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Real-time error correction and performance aid for MIDI instruments [0.0]
ライブ音楽演奏中に多少の間違いを犯すことは、直感的なリスナーによって容易に発見できる。
このようなエラーを識別し、修正する問題は、人工知能によってアプローチすることができる。
本稿では,関連する問題に対する最先端のソリューションについて検討し,音楽誤りの検出と修正のための新しいソリューションについて検討する。
論文 参考訳(メタデータ) (2020-11-26T04:28:29Z) - A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation [0.0]
本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。
実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
論文 参考訳(メタデータ) (2020-10-15T13:59:58Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。