論文の概要: PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset
- arxiv url: http://arxiv.org/abs/2401.16803v2
- Date: Wed, 7 Feb 2024 06:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:55:51.660959
- Title: PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset
- Title(参考訳): pbscsr:ピアノブートレッグスコア作曲家スタイル認識データセット
- Authors: Arhan Jain, Alec Bunn, Austin Pham, and TJ Tsai
- Abstract要約: 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。
私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するためのデータセットを作ることでした。
データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
- 参考スコア(独自算出の注目度): 5.314803183185992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article motivates, describes, and presents the PBSCSR dataset for
studying composer style recognition of piano sheet music. Our overarching goal
was to create a dataset for studying composer style recognition that is "as
accessible as MNIST and as challenging as ImageNet". To achieve this goal, we
use a previously proposed feature representation of sheet music called a
bootleg score, which encodes the position of noteheads relative to the staff
lines. Using this representation, we sample fixed-length bootleg score
fragments from piano sheet music images on IMSLP. The dataset itself contains
40,000 62x64 bootleg score images for a 9-way classification task, 100,000
62x64 bootleg score images for a 100-way classification task, and 29,310
unlabeled variable-length bootleg score images for pretraining. The labeled
data is presented in a form that mirrors MNIST images, in order to make it
extremely easy to visualize, manipulate, and train models in an efficient
manner. Additionally, we include relevant metadata to allow access to the
underlying raw sheet music images and other related data on IMSLP. We describe
several research tasks that could be studied with the dataset, including
variations of composer style recognition in a few-shot or zero-shot setting.
For tasks that have previously proposed models, we release code and baseline
results for future works to compare against. We also discuss open research
questions that the PBSCSR data is especially well suited to facilitate research
on and areas of fruitful exploration in future work.
- Abstract(参考訳): 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。
私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するデータセットを作ることでした。
この目的を達成するために,これまでに提案されたブートレッグスコアと呼ばれるシート音楽の特徴表現を用いて,スタッフラインに対するノートヘッドの位置を符号化する。
この表現を用いて,IMSLP上のピアノ楽譜の固定長ブートレグスコア断片をサンプリングした。
データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
ラベル付きデータはmnistイメージをミラーする形式で提示され、効率的な方法でモデルを可視化、操作、および訓練することが極めて容易になる。
さらに,IMSLP上の生シート音楽画像やその他の関連データにアクセスするための関連メタデータも含んでいる。
このデータセットで研究できるいくつかの研究課題について述べる。例えば、数ショットまたはゼロショットの設定における作曲家スタイルの認識のバリエーションなどである。
以前にモデルを提案したタスクについては、コードとベースライン結果をリリースして、比較します。
また,PBSCSRのデータが今後の研究における実りある探索の分野の研究に特に適しているというオープンな研究課題についても論じる。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z) - Camera-Based Piano Sheet Music Identification [19.850248946069023]
IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。
そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。
In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
論文 参考訳(メタデータ) (2020-07-29T03:55:27Z) - Learning to Read and Follow Music in Complete Score Sheet Images [8.680081568962997]
そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。
受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
論文 参考訳(メタデータ) (2020-07-21T11:53:22Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。