Fugu-MT 論文翻訳(概要): PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset

論文の概要: PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset

arxiv url: http://arxiv.org/abs/2401.16803v2
Date: Wed, 7 Feb 2024 06:48:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:55:51.660959
Title: PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset
Title（参考訳）: pbscsr:ピアノブートレッグスコア作曲家スタイル認識データセット
Authors: Arhan Jain, Alec Bunn, Austin Pham, and TJ Tsai
Abstract要約: 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するためのデータセットを作ることでした。データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
参考スコア（独自算出の注目度）: 5.314803183185992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This article motivates, describes, and presents the PBSCSR dataset for studying composer style recognition of piano sheet music. Our overarching goal was to create a dataset for studying composer style recognition that is "as accessible as MNIST and as challenging as ImageNet". To achieve this goal, we use a previously proposed feature representation of sheet music called a bootleg score, which encodes the position of noteheads relative to the staff lines. Using this representation, we sample fixed-length bootleg score fragments from piano sheet music images on IMSLP. The dataset itself contains 40,000 62x64 bootleg score images for a 9-way classification task, 100,000 62x64 bootleg score images for a 100-way classification task, and 29,310 unlabeled variable-length bootleg score images for pretraining. The labeled data is presented in a form that mirrors MNIST images, in order to make it extremely easy to visualize, manipulate, and train models in an efficient manner. Additionally, we include relevant metadata to allow access to the underlying raw sheet music images and other related data on IMSLP. We describe several research tasks that could be studied with the dataset, including variations of composer style recognition in a few-shot or zero-shot setting. For tasks that have previously proposed models, we release code and baseline results for future works to compare against. We also discuss open research questions that the PBSCSR data is especially well suited to facilitate research on and areas of fruitful exploration in future work.
Abstract（参考訳）: 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するデータセットを作ることでした。この目的を達成するために,これまでに提案されたブートレッグスコアと呼ばれるシート音楽の特徴表現を用いて,スタッフラインに対するノートヘッドの位置を符号化する。この表現を用いて,IMSLP上のピアノ楽譜の固定長ブートレグスコア断片をサンプリングした。データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。ラベル付きデータはmnistイメージをミラーする形式で提示され、効率的な方法でモデルを可視化、操作、および訓練することが極めて容易になる。さらに,IMSLP上の生シート音楽画像やその他の関連データにアクセスするための関連メタデータも含んでいる。このデータセットで研究できるいくつかの研究課題について述べる。例えば、数ショットまたはゼロショットの設定における作曲家スタイルの認識のバリエーションなどである。以前にモデルを提案したタスクについては、コードとベースライン結果をリリースして、比較します。また,PBSCSRのデータが今後の研究における実りある探索の分野の研究に特に適しているというオープンな研究課題についても論じる。

関連論文リスト

VisionScores -- A system-segmented image score dataset for deep learning tasks [49.1574468325115]
VisionScoresは、最初のシステム別画像スコアデータセットである。機械学習とディープラーニングのタスクのために、構造に富んだ高情報密度の画像を提供することを目指している。
論文参考訳（メタデータ） (2025-06-28T22:29:23Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。 OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。 YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2024-08-31T01:09:12Z)
Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文参考訳（メタデータ） (2023-09-21T14:54:48Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文参考訳（メタデータ） (2022-04-29T13:38:42Z)
Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文参考訳（メタデータ） (2021-10-29T16:51:16Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Composer Style Classification of Piano Sheet Music Images Using Language Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。 IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文参考訳（メタデータ） (2020-07-29T04:13:59Z)
Camera-Based Piano Sheet Music Identification [19.850248946069023]
IMSLPデータセット全体のピアノ楽譜を検索可能なデータベースとして使用する。そこで本稿では,動的n-gramフィンガープリントと呼ばれる,実行時間を大幅に削減するハッシュ方式を提案する。 In experiment on IMSLP data, we proposed to achieve a mean reciprocal rank of 0.85 and a average runtime of 0.98 seconds per query。
論文参考訳（メタデータ） (2020-07-29T03:55:27Z)
Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文参考訳（メタデータ） (2020-06-20T22:43:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。