論文の概要: LEGATO: Large-scale End-to-end Generalizable Approach to Typeset OMR
- arxiv url: http://arxiv.org/abs/2506.19065v1
- Date: Mon, 23 Jun 2025 19:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.360599
- Title: LEGATO: Large-scale End-to-end Generalizable Approach to Typeset OMR
- Title(参考訳): LEGATO: 大規模エンドツーエンド汎用型OMR
- Authors: Guang Yang, Victoria Ebert, Nazif Tamer, Luiza Pozzobon, Noah A. Smith,
- Abstract要約: Legatoは、フルページまたはマルチページのタイプセットの楽譜を認識できる最初の大規模事前訓練型OMRモデルである。
本モデルは,様々なタイプセットスコアにまたがる強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 44.85037245145321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Legato, a new end-to-end transformer model for optical music recognition (OMR). Legato is the first large-scale pretrained OMR model capable of recognizing full-page or multi-page typeset music scores and the first to generate documents in ABC notation, a concise, human-readable format for symbolic music. Bringing together a pretrained vision encoder with an ABC decoder trained on a dataset of more than 214K images, our model exhibits the strong ability to generalize across various typeset scores. We conduct experiments on a range of datasets and demonstrate that our model achieves state-of-the-art performance. Given the lack of a standardized evaluation for end-to-end OMR, we comprehensively compare our model against the previous state of the art using a diverse set of metrics.
- Abstract(参考訳): 我々は光学音楽認識(OMR)のための新しいエンドツーエンド変換モデルであるLegotoを提案する。
Legatoは、全ページまたは複数ページのタイプセット音楽の楽譜を認識できる最初の大規模事前訓練型OMRモデルであり、シンボリック音楽の簡潔で可読なフォーマットであるABC表記で文書を生成する最初のものである。
トレーニング済みの視覚エンコーダとABCデコーダを214K以上の画像のデータセットでトレーニングし,様々なタイプセットスコアにまたがる強力な一般化能力を示す。
我々は、さまざまなデータセットで実験を行い、我々のモデルが最先端のパフォーマンスを達成することを実証する。
エンド・ツー・エンドのOMRの標準化された評価が欠如していることを考えると、我々のモデルは様々なメトリクスを用いて過去の最先端技術と比較する。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
我々は、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,音楽スコアページ全体を処理し,完全書き起こしを楽曲エンコーディング形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - Practical End-to-End Optical Music Recognition for Pianoform Music [3.69298824193862]
私たちはLinearized MusicXMLと呼ばれるシーケンシャルなフォーマットを定義します。
我々は,OpenScore Lieder corpus に基づいて MusicXML をベースとしたベンチマーク型セット OMR を作成する。
データセットのベースラインとして機能し、TEDnメトリックを使用してモデルを評価するために、エンドツーエンドモデルをトレーニングし、微調整する。
論文 参考訳(メタデータ) (2024-03-20T17:26:22Z) - A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems [4.936226952764696]
共通の音楽表現言語の必要性を特定し,MTNフォーマットを提案する。
この形式は、音楽を高吸収ノードにまとめるプリミティブの集合として表現する。
また,この概念の実証として,特定のOMRメトリックセットとタイプセットスコアデータセットを開発した。
論文 参考訳(メタデータ) (2023-12-20T10:45:22Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。