論文の概要: From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR
- arxiv url: http://arxiv.org/abs/2604.20522v1
- Date: Wed, 22 Apr 2026 13:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.131975
- Title: From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR
- Title(参考訳): 画像から音楽へ:複合ポリフォニックOMRのための2段階構造復号法
- Authors: Nan Xu, Shiheng Li, Shengchao Hou,
- Abstract要約: 実用的な2段階光音楽認識(OMR)パイプラインの2段階目に向けた新しいアプローチを提案する。
視覚パイプラインからシンボルとイベント候補が与えられたら、それらを編集可能、検証可能、エクスポート可能なスコア構造にデコードします。
我々は、複雑な多声的スタッフ表記、特にピアノ楽譜に焦点を合わせ、声の分離と測定中のタイミングが主なボトルネックとなっている。
- 参考スコア(独自算出の注目度): 23.454234180354323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new approach for the second stage of a practical two-stage Optical Music Recognition (OMR) pipeline. Given symbol and event candidates from the visual pipeline, we decode them into an editable, verifiable, and exportable score structure. We focus on complex polyphonic staff notation, especially piano scores, where voice separation and intra-measure timing are the main bottlenecks. Our approach formulates second-stage decoding as a structure decoding problem and uses topology recognition with probability-guided search (BeadSolver) as its core method. We also describe a data strategy that combines procedural generation with recognition-feedback annotations. The result is a practical decoding component for real OMR systems and a path to accumulate structured score data for future end-to-end, multimodal, and RL-style methods.
- Abstract(参考訳): 実用的な2段階光音楽認識(OMR)パイプラインの2段階目に向けた新しいアプローチを提案する。
視覚パイプラインからシンボルとイベント候補が与えられたら、それらを編集可能、検証可能、エクスポート可能なスコア構造にデコードします。
我々は、複雑な多声的スタッフ表記、特にピアノ楽譜に焦点を合わせ、声質分離と測定内タイミングが主なボトルネックとなっている。
本稿では,構造復号化問題として第2段復号法を定式化し,確率誘導探索(BeadSolver)を基本手法としてトポロジ認識を用いる。
また、手続き生成と認識フィードバックアノテーションを組み合わせたデータ戦略についても述べる。
その結果、実際のOMRシステムのための事実上の復号化コンポーネントであり、将来のエンドツーエンド、マルチモーダル、RLスタイルの手法のための構造化スコアデータを蓄積するパスである。
関連論文リスト
- CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - Exploring single-song autoencoding schemes for audio-based music
structure analysis [6.037383467521294]
この研究は、低次元のオートエンコーダを訓練し、特定の歌に特有の潜在/圧縮表現を学習する「ピース固有」オートエンコード方式を探求する。
提案手法は,3秒耐性を有する教師付き最先端手法の性能レベルを実現する。
論文 参考訳(メタデータ) (2021-10-27T13:48:25Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。