論文の概要: Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining
- arxiv url: http://arxiv.org/abs/2007.14587v1
- Date: Wed, 29 Jul 2020 04:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:25:35.783280
- Title: Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining
- Title(参考訳): 言語モデル事前学習を用いたピアノ楽譜の作曲家スタイル分類
- Authors: TJ Tsai and Kevin Ji
- Abstract要約: 我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 16.23438816698455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies composer style classification of piano sheet music images.
Previous approaches to the composer classification task have been limited by a
scarcity of data. We address this issue in two ways: (1) we recast the problem
to be based on raw sheet music images rather than a symbolic music format, and
(2) we propose an approach that can be trained on unlabeled data. Our approach
first converts the sheet music image into a sequence of musical "words" based
on the bootleg feature representation, and then feeds the sequence into a text
classifier. We show that it is possible to significantly improve classifier
performance by first training a language model on a set of unlabeled data,
initializing the classifier with the pretrained language model weights, and
then finetuning the classifier on a small amount of labeled data. We train
AWD-LSTM, GPT-2, and RoBERTa language models on all piano sheet music images in
IMSLP. We find that transformer-based architectures outperform CNN and LSTM
models, and pretraining boosts classification accuracy for the GPT-2 model from
46\% to 70\% on a 9-way classification task. The trained model can also be used
as a feature extractor that projects piano sheet music into a feature space
that characterizes compositional style.
- Abstract(参考訳): 本稿では,ピアノ楽譜の作曲スタイル分類について述べる。
作曲家分類タスクに対する以前のアプローチは、データの不足によって制限されている。
本研究では,(1)記号的な音楽形式ではなく生の楽譜をベースとした問題を再キャストし,(2)ラベルのないデータに基づいてトレーニング可能なアプローチを提案する。
本手法では,まず楽譜画像からbootleg特徴表現に基づく音楽的「単語」の列に変換し,そのシーケンスをテキスト分類器に入力する。
まず,ラベルなしデータに対して言語モデルをトレーニングし,事前学習した言語モデル重みで分類器を初期化し,少量のラベル付きデータで分類器を微調整することにより,分類器の性能を大幅に向上させることができることを示す。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
CNN や LSTM モデルよりも優れたトランスフォーマーベースアーキテクチャが得られ、事前学習により9ウェイ分類タスクにおいて GPT-2 モデルの分類精度が 46\% から 70\% に向上する。
訓練されたモデルは、ピアノ楽譜を作曲スタイルを特徴付ける特徴空間に投影する特徴抽出器としても使用できる。
関連論文リスト
- Audio-to-Score Conversion Model Based on Whisper methodology [0.0]
この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。
実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-10-22T17:31:37Z) - PBSCR: The Piano Bootleg Score Composer Recognition Dataset [5.314803183185992]
PBSCR(PBSCR)は、クラシックピアノ音楽の作曲家認識を研究するためのデータセットである。
9クラス認証タスクには4万の62x64ブートレグスコアイメージ、100クラス認証タスクには10万の62x64ブートレグスコアイメージ、事前トレーニングには未ラベルの可変長ブートレグスコアイメージ29,310が含まれる。
論文 参考訳(メタデータ) (2024-01-30T07:50:32Z) - Image-free Classifier Injection for Zero-Shot Classification [72.66409483088995]
ゼロショット学習モデルは、訓練中に見られなかったクラスからのサンプルのイメージ分類において顕著な結果が得られる。
我々は,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルの装備を目指す。
提案したイメージフリーインジェクション・ウィズ・セマンティックス (ICIS) でこれを実現する。
論文 参考訳(メタデータ) (2023-08-21T09:56:48Z) - Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? [41.56585313495218]
視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
本稿では,プロンプトチューニングパラダイムの堅牢性に寄与する主な理由について考察する。
ノイズの多いCLIPからのゼロショット予測は、独自のプロンプトをチューニングするために使用できることを示す。
論文 参考訳(メタデータ) (2023-07-22T04:20:30Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。