論文の概要: Learning to Read and Follow Music in Complete Score Sheet Images
- arxiv url: http://arxiv.org/abs/2007.10736v1
- Date: Tue, 21 Jul 2020 11:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:29:20.528596
- Title: Learning to Read and Follow Music in Complete Score Sheet Images
- Title(参考訳): 完全スコアシート画像における音楽の読み書き学習
- Authors: Florian Henkel, Rainer Kelz, Gerhard Widmer
- Abstract要約: そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。
受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
- 参考スコア(独自算出の注目度): 8.680081568962997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of score following in sheet music given as
unprocessed images. While existing work either relies on OMR software to obtain
a computer-readable score representation, or crucially relies on prepared sheet
image excerpts, we propose the first system that directly performs score
following in full-page, completely unprocessed sheet images. Based on incoming
audio and a given image of the score, our system directly predicts the most
likely position within the page that matches the audio, outperforming current
state-of-the-art image-based score followers in terms of alignment precision.
We also compare our method to an OMR-based approach and empirically show that
it can be a viable alternative to such a system.
- Abstract(参考訳): 本稿では,未処理画像として与えられる楽譜の追従課題について述べる。
既存の作業はOMRソフトウェアに頼ってコンピュータ可読なスコア表現を得るか,あるいは用意されたシート画像の抜粋に大きく依存するが,本研究では,全ページで完全に処理されていないシート画像にスコアを追従する最初のシステムを提案する。
入力された音声とスコアの所定の画像に基づいて、システムは、アライメント精度で現在の最先端の画像ベースのスコアフォロワーを上回って、オーディオにマッチするページ内の最も可能性の高い位置を直接予測する。
また,本手法をOMRベースのアプローチと比較し,そのようなシステムに代わる有効な代替手段であることを実証的に示す。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
我々は、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,音楽スコアページ全体を処理し,完全書き起こしを楽曲エンコーディング形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Fully Automatic Page Turning on Real Scores [6.230751621285321]
本稿では,実際のスコア,すなわちシート画像で直接動作する自動ページ変換システムのプロトタイプを提案する。
本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像の位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。
概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。
論文 参考訳(メタデータ) (2021-11-12T10:23:14Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Multi-modal Conditional Bounding Box Regression for Music Score
Following [7.360807642941713]
本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。
条件付きニューラルネットワークアーキテクチャは、与えられた音楽演奏の各時点における完全なスコアシート画像におけるマッチング位置のx,y座標を直接予測する。
論文 参考訳(メタデータ) (2021-05-10T12:43:35Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Camera-Based Piano Sheet Music Identification [19.850248946069023]
IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。
そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。
In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
論文 参考訳(メタデータ) (2020-07-29T03:55:27Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。