論文の概要: Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription
- arxiv url: http://arxiv.org/abs/2402.07596v2
- Date: Mon, 29 Apr 2024 09:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:35:54.782777
- Title: Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription
- Title(参考訳): 楽譜変換器:モノフォニック文字以外の音楽認識をエンドツーエンドで行う
- Authors: Antonio Ríos-Vila, Jorge Calvo-Zaragoza, Thierry Paquet,
- Abstract要約: Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
- 参考スコア(独自算出の注目度): 13.960714900433269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art end-to-end Optical Music Recognition (OMR) has, to date, primarily been carried out using monophonic transcription techniques to handle complex score layouts, such as polyphony, often by resorting to simplifications or specific adaptations. Despite their efficacy, these approaches imply challenges related to scalability and limitations. This paper presents the Sheet Music Transformer, the first end-to-end OMR model designed to transcribe complex musical scores without relying solely on monophonic strategies. Our model employs a Transformer-based image-to-sequence framework that predicts score transcriptions in a standard digital music encoding format from input images. Our model has been tested on two polyphonic music datasets and has proven capable of handling these intricate music structures effectively. The experimental outcomes not only indicate the competence of the model, but also show that it is better than the state-of-the-art methods, thus contributing to advancements in end-to-end OMR transcription.
- Abstract(参考訳): OMR(State-of-the-the-the-art end-to-end Optical Music Recognition)は、主にポリフォニーのような複雑なスコアレイアウトを扱うためにモノフォニックの書き起こし技術を用いて行われてきた。
有効性にもかかわらず、これらのアプローチはスケーラビリティと制限に関連する課題を示唆している。
本稿では,モノフォニック戦略のみに頼らずに複雑な楽譜の書き起こしが可能な最初のエンドツーエンドOMRモデルであるシート・ミュージック・トランスフォーマーを提案する。
本モデルでは、入力画像から標準デジタル音楽符号化フォーマットの楽譜の書き起こしを予測するトランスフォーマーベースの画像列化フレームワークを用いている。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
実験結果は, モデルの能力を示すだけでなく, 最先端の方法よりも優れており, エンドツーエンドのOMR転写の進歩に寄与している。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Sheet Music Transformer ++: End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
Sheet Music Transformer++は、全ページのポリフォニック楽譜の書き起こしが可能なエンドツーエンドモデルである。
公開ポリフォニック転写データセットのフルページ拡張についていくつかの実験を行った。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。