Fugu-MT 論文翻訳(概要): Camera-Based Piano Sheet Music Identification

論文の概要: Camera-Based Piano Sheet Music Identification

arxiv url: http://arxiv.org/abs/2007.14579v1
Date: Wed, 29 Jul 2020 03:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-05 21:08:53.590935
Title: Camera-Based Piano Sheet Music Identification
Title（参考訳）: カメラによるピアノ楽譜識別
Authors: Daniel Yang and TJ Tsai
Abstract要約: IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。 In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
参考スコア（独自算出の注目度）: 19.850248946069023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a method for large-scale retrieval of piano sheet music images. Our work differs from previous studies on sheet music retrieval in two ways. First, we investigate the problem at a much larger scale than previous studies, using all solo piano sheet music images in the entire IMSLP dataset as a searchable database. Second, we use cell phone images of sheet music as our input queries, which lends itself to a practical, user-facing application. We show that a previously proposed fingerprinting method for sheet music retrieval is far too slow for a real-time application, and we diagnose its shortcomings. We propose a novel hashing scheme called dynamic n-gram fingerprinting that significantly reduces runtime while simultaneously boosting retrieval accuracy. In experiments on IMSLP data, our proposed method achieves a mean reciprocal rank of 0.85 and an average runtime of 0.98 seconds per query.
Abstract（参考訳）: 本稿では,ピアノシート音楽画像の大規模検索手法を提案する。本研究は従来の楽譜検索研究とは2つの点で異なる。まず,imslpデータセット全体のソロピアノシート楽譜を検索可能なデータベースとして用いることにより,従来の研究よりもはるかに大きなスケールでこの問題を調査した。第2に,シート音楽の携帯電話イメージを入力クエリとして使用することで,実用的なユーザ対応アプリケーションを実現する。シート音楽検索において,従来提案されていたフィンガープリント法は,リアルタイムアプリケーションには遅すぎることを示し,その欠点を診断する。本稿では,動的n-gramフィンガープリントと呼ばれる新しいハッシュ方式を提案する。 imslpデータを用いた実験において,提案手法は平均逆ランク 0.85 と平均実行時間 0.98 秒を達成する。

関連論文リスト

Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文参考訳（メタデータ） (2025-06-17T16:19:21Z)
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。 CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文参考訳（メタデータ） (2024-02-23T11:47:16Z)
PBSCR: The Piano Bootleg Score Composer Recognition Dataset [5.314803183185992]
PBSCR(PBSCR)は、クラシックピアノ音楽の作曲家認識を研究するためのデータセットである。 9クラス認証タスクには4万の62x64ブートレグスコアイメージ、100クラス認証タスクには10万の62x64ブートレグスコアイメージ、事前トレーニングには未ラベルの可変長ブートレグスコアイメージ29,310が含まれる。
論文参考訳（メタデータ） (2024-01-30T07:50:32Z)
Passage Summarization with Recurrent Models for Audio-Sheet Music Retrieval [4.722882736419499]
クロスモーダル音楽検索は、シート音楽画像とオーディオ録音を接続することができる。そこで本研究では,音声と楽譜の長いパスを要約するために,共同埋め込みを学習するクロスモーダル・リカレント・ネットワークを提案する。合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
論文参考訳（メタデータ） (2023-09-21T14:30:02Z)
MaskSearch: Querying Image Masks at Scale [60.82746984506577]
MaskSearchは、クエリ結果の正確性を確保しながら、イメージマスクのデータベース上でクエリを高速化するシステムである。試行錯誤実験の結果,圧縮データサイズの約5%のインデックスを用いたMaskSearchは,最大2桁のクエリを高速化することがわかった。
論文参考訳（メタデータ） (2023-05-03T18:28:14Z)
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T09:36:42Z)
DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文参考訳（メタデータ） (2022-12-19T18:59:34Z)
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文参考訳（メタデータ） (2022-07-29T16:01:48Z)
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文参考訳（メタデータ） (2022-05-24T14:32:57Z)
Composer Style Classification of Piano Sheet Music Images Using Language Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。 IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文参考訳（メタデータ） (2020-07-29T04:13:59Z)
Learning to Read and Follow Music in Complete Score Sheet Images [8.680081568962997]
そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
論文参考訳（メタデータ） (2020-07-21T11:53:22Z)
Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文参考訳（メタデータ） (2020-07-08T05:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。