論文の概要: PBSCR: The Piano Bootleg Score Composer Recognition Dataset
- arxiv url: http://arxiv.org/abs/2401.16803v3
- Date: Mon, 5 Aug 2024 21:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:31:50.209672
- Title: PBSCR: The Piano Bootleg Score Composer Recognition Dataset
- Title(参考訳): PBSCR:ピアノトランペットスコアコンストラクタ認識データセット
- Authors: Arhan Jain, Alec Bunn, Austin Pham, TJ Tsai,
- Abstract要約: PBSCR(PBSCR)は、クラシックピアノ音楽の作曲家認識を研究するためのデータセットである。
9クラス認証タスクには4万の62x64ブートレグスコアイメージ、100クラス認証タスクには10万の62x64ブートレグスコアイメージ、事前トレーニングには未ラベルの可変長ブートレグスコアイメージ29,310が含まれる。
- 参考スコア(独自算出の注目度): 5.314803183185992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article motivates, describes, and presents the PBSCR dataset for studying composer recognition of classical piano music. Our goal was to design a dataset that facilitates large-scale research on composer recognition that is suitable for modern architectures and training practices. To achieve this goal, we utilize the abundance of sheet music images and rich metadata on IMSLP, use a previously proposed feature representation called a bootleg score to encode the location of noteheads relative to staff lines, and present the data in an extremely simple format (2D binary images) to encourage rapid exploration and iteration. The dataset itself contains 40,000 62x64 bootleg score images for a 9-class recognition task, 100,000 62x64 bootleg score images for a 100-class recognition task, and 29,310 unlabeled variable-length bootleg score images for pretraining. The labeled data is presented in a form that mirrors MNIST images, in order to make it extremely easy to visualize, manipulate, and train models in an efficient manner. We include relevant information to connect each bootleg score image with its underlying raw sheet music image, and we scrape, organize, and compile metadata from IMSLP on all piano works to facilitate multimodal research and allow for convenient linking to other datasets. We release baseline results in a supervised and low-shot setting for future works to compare against, and we discuss open research questions that the PBSCR data is especially well suited to facilitate research on.
- Abstract(参考訳): 本稿では、クラシックピアノ音楽の作曲家認識を研究するためのPBSCRデータセットを動機付け、記述し、提示する。
我々のゴールは、現代建築や訓練の実践に適した作曲家認識の大規模研究を支援するデータセットを設計することであった。
この目的を達成するために、IMSLP上のシート音楽画像とリッチメタデータを多用し、これまで提案されていたブートレッグスコアと呼ばれる特徴表現を用いて、スタッフラインに対するノートヘッドの位置を符号化し、非常に単純なフォーマット(2Dバイナリ画像)でデータを提示し、迅速な探索とイテレーションを促進する。
データセットには、9クラス認証タスク用の4万62x64ブートレグスコアイメージ、100クラス認証タスク用の10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
ラベル付きデータはMNIST画像を映し出す形で表示され、モデルの視覚化、操作、訓練を極めて容易に行えるようにしている。
各ブートレッグスコア画像とベースとなる生の楽譜画像とを結びつけるための関連情報を含み、全てのピアノ作品においてIMSLPからのメタデータをスクラップし、整理し、コンパイルし、マルチモーダルな研究を容易にし、他のデータセットへの便利なリンクを可能にする。
本研究では, PBSCRデータに特に適しているというオープンな研究課題について考察する。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z) - Camera-Based Piano Sheet Music Identification [19.850248946069023]
IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。
そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。
In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
論文 参考訳(メタデータ) (2020-07-29T03:55:27Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。