論文の概要: Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation
- arxiv url: http://arxiv.org/abs/2408.15002v1
- Date: Tue, 27 Aug 2024 12:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:53:43.202468
- Title: Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation
- Title(参考訳): 光音楽認識における知識発見:インスタンスセグメンテーションによる情報検索の促進
- Authors: Elona Shatri, George Fazekas,
- Abstract要約: 光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに音符の書き起こしを自動化する。
本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜における記号の検出とデライン化を強化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Music Recognition (OMR) automates the transcription of musical notation from images into machine-readable formats like MusicXML, MEI, or MIDI, significantly reducing the costs and time of manual transcription. This study explores knowledge discovery in OMR by applying instance segmentation using Mask R-CNN to enhance the detection and delineation of musical symbols in sheet music. Unlike Optical Character Recognition (OCR), OMR must handle the intricate semantics of Common Western Music Notation (CWMN), where symbol meanings depend on shape, position, and context. Our approach leverages instance segmentation to manage the density and overlap of musical symbols, facilitating more precise information retrieval from music scores. Evaluations on the DoReMi and MUSCIMA++ datasets demonstrate substantial improvements, with our method achieving a mean Average Precision (mAP) of up to 59.70\% in dense symbol environments, achieving comparable results to object detection. Furthermore, using traditional computer vision techniques, we add a parallel step for staff detection to infer the pitch for the recognised symbols. This study emphasises the role of pixel-wise segmentation in advancing accurate music symbol recognition, contributing to knowledge discovery in OMR. Our findings indicate that instance segmentation provides more precise representations of musical symbols, particularly in densely populated scores, advancing OMR technology. We make our implementation, pre-processing scripts, trained models, and evaluation results publicly available to support further research and development.
- Abstract(参考訳): 光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに書き起こしを自動化し、手書き文字起こしのコストと時間を大幅に削減する。
本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜中の記号の検出とデライン化を促進する。
光学文字認識(OCR)とは異なり、OMRは記号の意味が形、位置、文脈に依存する共通西洋音楽表記(CWMN)の複雑な意味を扱う必要がある。
本手法は,楽譜の密度と重なり合いの管理にインスタンスセグメンテーションを活用し,より正確な情報検索を容易にする。
DoReMi と MUSCIMA++ データセットの評価は,高密度シンボル環境において平均平均精度 (mAP) を59.70 % まで向上し,オブジェクト検出に匹敵する結果を得た。
さらに,従来のコンピュータビジョン技術を用いて,認識されたシンボルのピッチを推定するために,スタッフ検出のための並列ステップを追加する。
本研究は,OMRにおける知識発見に寄与する,正確な音楽記号認識における画素分割の役割を強調した。
以上の結果から,音節分割は,特に密集した楽譜において,より正確な記号表現を提供し,OMR技術の進歩が示唆された。
我々は、さらなる研究と開発を支援するために、実装、事前処理スクリプト、訓練済みモデル、および評価結果を公開しています。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems [4.936226952764696]
共通の音楽表現言語の必要性を特定し,MTNフォーマットを提案する。
この形式は、音楽を高吸収ノードにまとめるプリミティブの集合として表現する。
また,この概念の実証として,特定のOMRメトリックセットとタイプセットスコアデータセットを開発した。
論文 参考訳(メタデータ) (2023-12-20T10:45:22Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - TrOMR:Transformer-Based Polyphonic Optical Music Recognition [26.14383240933706]
本稿では, TrOMR と呼ばれる終端ポリフォニック OMR に対して, 優れた大域的知覚能力を有するトランスフォーマーベースアプローチを提案する。
また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-08-18T08:06:27Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。