論文の概要: TrOMR:Transformer-Based Polyphonic Optical Music Recognition
- arxiv url: http://arxiv.org/abs/2308.09370v1
- Date: Fri, 18 Aug 2023 08:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:08:09.983516
- Title: TrOMR:Transformer-Based Polyphonic Optical Music Recognition
- Title(参考訳): tromr:トランスフォーマーに基づくポリフォニック光音楽認識
- Authors: Yixuan Li, Huaping Liu, Qiang Jin, Miaomiao Cai, Peng Li
- Abstract要約: 本稿では, TrOMR と呼ばれる終端ポリフォニック OMR に対して, 優れた大域的知覚能力を有するトランスフォーマーベースアプローチを提案する。
また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
- 参考スコア(独自算出の注目度): 26.14383240933706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Music Recognition (OMR) is an important technology in music and has
been researched for a long time. Previous approaches for OMR are usually based
on CNN for image understanding and RNN for music symbol classification. In this
paper, we propose a transformer-based approach with excellent global perceptual
capability for end-to-end polyphonic OMR, called TrOMR. We also introduce a
novel consistency loss function and a reasonable approach for data annotation
to improve recognition accuracy for complex music scores. Extensive experiments
demonstrate that TrOMR outperforms current OMR methods, especially in
real-world scenarios. We also develop a TrOMR system and build a camera scene
dataset for full-page music scores in real-world. The code and datasets will be
made available for reproducibility.
- Abstract(参考訳): 光音楽認識(OMR)は音楽において重要な技術であり、長い間研究されてきた。
OMRの従来のアプローチは通常、画像理解のためのCNNと、音楽記号分類のためのRNNに基づいている。
本稿では, TrOMRと呼ばれる, 終端ポリフォニックOMRのグローバル知覚能力に優れたトランスフォーマーベースアプローチを提案する。
また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
広範な実験により、tromrは現在のomr法、特に現実のシナリオよりも優れていることが示されている。
また,TrOMRシステムを開発し,実世界のフルページ音楽スコアのためのカメラシーンデータセットを構築した。
コードとデータセットは再現性で利用可能になる。
関連論文リスト
- Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation [0.0]
光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに音符の書き起こしを自動化する。
本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜における記号の検出とデライン化を強化する。
論文 参考訳(メタデータ) (2024-08-27T12:34:41Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
我々は、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,音楽スコアページ全体を処理し,完全書き起こしを楽曲エンコーディング形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems [4.936226952764696]
共通の音楽表現言語の必要性を特定し,MTNフォーマットを提案する。
この形式は、音楽を高吸収ノードにまとめるプリミティブの集合として表現する。
また,この概念の実証として,特定のOMRメトリックセットとタイプセットスコアデータセットを開発した。
論文 参考訳(メタデータ) (2023-12-20T10:45:22Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z) - DoReMi: First glance at a universal OMR dataset [0.0]
DoReMiはOMRの主な課題に対処するOMRデータセットである。
6400点以上の印刷された楽譜と付随するメタデータを含んでいる。
データの半分を用いた物体検出において平均平均精度(mAP)は64%であった。
論文 参考訳(メタデータ) (2021-07-16T09:24:58Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。