論文の概要: Camera-Based Piano Sheet Music Identification
- arxiv url: http://arxiv.org/abs/2007.14579v1
- Date: Wed, 29 Jul 2020 03:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 21:08:53.590935
- Title: Camera-Based Piano Sheet Music Identification
- Title(参考訳): カメラによるピアノ楽譜識別
- Authors: Daniel Yang and TJ Tsai
- Abstract要約: IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。
そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。
In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
- 参考スコア(独自算出の注目度): 19.850248946069023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a method for large-scale retrieval of piano sheet music
images. Our work differs from previous studies on sheet music retrieval in two
ways. First, we investigate the problem at a much larger scale than previous
studies, using all solo piano sheet music images in the entire IMSLP dataset as
a searchable database. Second, we use cell phone images of sheet music as our
input queries, which lends itself to a practical, user-facing application. We
show that a previously proposed fingerprinting method for sheet music retrieval
is far too slow for a real-time application, and we diagnose its shortcomings.
We propose a novel hashing scheme called dynamic n-gram fingerprinting that
significantly reduces runtime while simultaneously boosting retrieval accuracy.
In experiments on IMSLP data, our proposed method achieves a mean reciprocal
rank of 0.85 and an average runtime of 0.98 seconds per query.
- Abstract(参考訳): 本稿では,ピアノシート音楽画像の大規模検索手法を提案する。
本研究は従来の楽譜検索研究とは2つの点で異なる。
まず,imslpデータセット全体のソロピアノシート楽譜を検索可能なデータベースとして用いることにより,従来の研究よりもはるかに大きなスケールでこの問題を調査した。
第2に,シート音楽の携帯電話イメージを入力クエリとして使用することで,実用的なユーザ対応アプリケーションを実現する。
シート音楽検索において,従来提案されていたフィンガープリント法は,リアルタイムアプリケーションには遅すぎることを示し,その欠点を診断する。
本稿では,動的n-gramフィンガープリントと呼ばれる新しいハッシュ方式を提案する。
imslpデータを用いた実験において,提案手法は平均逆ランク 0.85 と平均実行時間 0.98 秒 を達成する。
関連論文リスト
- PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset [5.314803183185992]
本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。
私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するためのデータセットを作ることでした。
データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
論文 参考訳(メタデータ) (2024-01-30T07:50:32Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Passage Summarization with Recurrent Models for Audio-Sheet Music
Retrieval [4.722882736419499]
クロスモーダル音楽検索は、シート音楽画像とオーディオ録音を接続することができる。
そこで本研究では,音声と楽譜の長いパスを要約するために,共同埋め込みを学習するクロスモーダル・リカレント・ネットワークを提案する。
合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
論文 参考訳(メタデータ) (2023-09-21T14:30:02Z) - MaskSearch: Querying Image Masks at Scale [60.82746984506577]
MaskSearchは、クエリ結果の正確性を確保しながら、イメージマスクのデータベース上でクエリを高速化するシステムである。
試行錯誤実験の結果,圧縮データサイズの約5%のインデックスを用いたMaskSearchは,最大2桁のクエリを高速化することがわかった。
論文 参考訳(メタデータ) (2023-05-03T18:28:14Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z) - Learning to Read and Follow Music in Complete Score Sheet Images [8.680081568962997]
そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。
受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
論文 参考訳(メタデータ) (2020-07-21T11:53:22Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。