論文の概要: TrOMR:Transformer-Based Polyphonic Optical Music Recognition
- arxiv url: http://arxiv.org/abs/2308.09370v1
- Date: Fri, 18 Aug 2023 08:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:08:09.983516
- Title: TrOMR:Transformer-Based Polyphonic Optical Music Recognition
- Title(参考訳): tromr:トランスフォーマーに基づくポリフォニック光音楽認識
- Authors: Yixuan Li, Huaping Liu, Qiang Jin, Miaomiao Cai, Peng Li
- Abstract要約: 本稿では, TrOMR と呼ばれる終端ポリフォニック OMR に対して, 優れた大域的知覚能力を有するトランスフォーマーベースアプローチを提案する。
また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
- 参考スコア(独自算出の注目度): 26.14383240933706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Music Recognition (OMR) is an important technology in music and has
been researched for a long time. Previous approaches for OMR are usually based
on CNN for image understanding and RNN for music symbol classification. In this
paper, we propose a transformer-based approach with excellent global perceptual
capability for end-to-end polyphonic OMR, called TrOMR. We also introduce a
novel consistency loss function and a reasonable approach for data annotation
to improve recognition accuracy for complex music scores. Extensive experiments
demonstrate that TrOMR outperforms current OMR methods, especially in
real-world scenarios. We also develop a TrOMR system and build a camera scene
dataset for full-page music scores in real-world. The code and datasets will be
made available for reproducibility.
- Abstract(参考訳): 光音楽認識(OMR)は音楽において重要な技術であり、長い間研究されてきた。
OMRの従来のアプローチは通常、画像理解のためのCNNと、音楽記号分類のためのRNNに基づいている。
本稿では, TrOMRと呼ばれる, 終端ポリフォニックOMRのグローバル知覚能力に優れたトランスフォーマーベースアプローチを提案する。
また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
広範な実験により、tromrは現在のomr法、特に現実のシナリオよりも優れていることが示されている。
また,TrOMRシステムを開発し,実世界のフルページ音楽スコアのためのカメラシーンデータセットを構築した。
コードとデータセットは再現性で利用可能になる。
関連論文リスト
- Sheet Music Transformer: End-To-End Optical Music Recognition Beyond
Monophonic Transcription [13.825822994127947]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - DoReMi: First glance at a universal OMR dataset [0.0]
DoReMiはOMRの主な課題に対処するOMRデータセットである。
6400点以上の印刷された楽譜と付随するメタデータを含んでいる。
データの半分を用いた物体検出において平均平均精度(mAP)は64%であった。
論文 参考訳(メタデータ) (2021-07-16T09:24:58Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Residual Recurrent CRNN for End-to-End Optical Music Recognition on
Monophonic Scores [8.829800916216275]
本稿では、Residual Recurrent Convolutional Neural NetworkのブロックとRecurrent-Decoder Networkを組み合わせた革新的なフレームワークを提案する。
実験結果は、CAMERA-PRIMUSと呼ばれる公開データセットに対してベンチマークされる。
論文 参考訳(メタデータ) (2020-10-26T08:39:37Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。