論文の概要: Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training
- arxiv url: http://arxiv.org/abs/2605.10835v1
- Date: Mon, 11 May 2026 16:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.00868
- Title: Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training
- Title(参考訳): Transcoda: データ中心合成学習によるエンドツーエンドゼロショット光音楽認識
- Authors: Daniel Dratschuk, Paul Swoboda,
- Abstract要約: i) 高度な合成データ生成パイプライン上に構築されたOMRシステムであるTranscoda, (ii) 独自の正規形式を強制する*kernエンコーディングの正規化, (iii) 出力の構文的正しさを保証する文法に基づく復号化を提案する。
Transcodaは18.46%のOMR-NED(次のベストシステムであるLegotoで43.91%に比較)で新たにキュレートされたOMR-NED(OMR-NED)のベンチマークで、過去のポーランドのスキャンのエラー率を63.97%に下げた。
- 参考スコア(独自算出の注目度): 13.569431145803792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Music Recognition (OMR), the task of transcribing sheet music into a structured textual representation, is currently bottlenecked by a lack of large-scale, annotated datasets of real scans. This forces models to rely on either few-shot transfer or synthetic training pipelines that remain overly simplistic. A secondary challenge is encoding non-uniqueness: in the popular Humdrum **kern format for transcribing music, multiple different text encodings can render into the same visual sheet music. This one-to-many mapping creates a harder learning task and introduces high uncertainty during decoding. We propose Transcoda, an OMR system built on (i) an advanced synthetic data generation pipeline, (ii) a normalization of the **kern encoding to enforce a unique normal form and (iii) grammar-based decoding to ensure the syntactic correctness of the output. This approach allows us to train a compact 59M-parameter model in just 6 hours on a single GPU that outperforms billion-parameter baselines. Transcoda achieves the best score among state of the art baselines on a newly curated benchmark of synthetically rendered scores at 18.46% OMR-NED (compared to 43.91% for the next-best system, Legato) and reduces the error rate on historical Polish scans to 63.97% OMR-NED (down from 80.16% for SMT++).
- Abstract(参考訳): 楽譜を構造化されたテキスト表現に変換する光学音楽認識(OMR)は、現在、大規模で注釈付き実際のスキャンデータセットの欠如によってボトルネックになっている。
これによりモデルは、過度に単純化されたままの、数発の転送または合成トレーニングパイプラインに頼らざるを得なくなる。
ポピュラーなHumdrum **kernフォーマットでは、複数の異なるテキストエンコーディングが同じビジュアルシート音楽にレンダリングできる。
この1対多のマッピングは、難しい学習タスクを生成し、デコーディング時に高い不確実性をもたらす。
我々は,OMRシステムであるTranscodaを提案する。
i)高度な合成データ生成パイプライン
(ii)一意の正規形を強制するために**kernエンコーディングの正規化
三 文法に基づく復号化により、出力の構文的正しさを確保すること。
このアプローチにより、10億パラメータのベースラインを上回る1つのGPU上で、59Mパラメータモデルをわずか6時間でトレーニングすることが可能になります。
Transcodaは18.46%のOMR-NED(次のベストシステムであるLegotoでは43.91%)で新たにキュレートされたベンチマークで、最先端のベースラインの中で最高のスコアを獲得し、歴史的ポーランドスキャンのエラー率を63.97%のOMR-NED(SMT++では80.16%から)に下げた。
関連論文リスト
- TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer [6.1319363847980135]
TTS-Transducerは、音声モデルとニューラルトランスデューサの強みを活用する、テキストから音声への新たなアーキテクチャである。
TTS-Transducerは,現代のTSシステムに代わる,競争力があり堅牢な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-01-10T19:50:32Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。