論文の概要: Semi-supervised music emotion recognition using noisy student training
and harmonic pitch class profiles
- arxiv url: http://arxiv.org/abs/2112.00702v1
- Date: Wed, 1 Dec 2021 18:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 16:08:45.982901
- Title: Semi-supervised music emotion recognition using noisy student training
and harmonic pitch class profiles
- Title(参考訳): 雑音学習と高調波ピッチクラスプロファイルを用いた半教師付き音楽感情認識
- Authors: Hao Hao Tan
- Abstract要約: 我々は、2021年の感情とテーマ・イン・ミュージック・チャレンジへのミラブルの提出を提示する。
この研究は、音楽の感情認識に半教師付き学習手法を活用できるかという問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Mirable's submission to the 2021 Emotions and Themes in Music
challenge. In this work, we intend to address the question: can we leverage
semi-supervised learning techniques on music emotion recognition? With that, we
experiment with noisy student training, which has improved model performance in
the image classification domain. As the noisy student method requires a strong
teacher model, we further delve into the factors including (i) input training
length and (ii) complementary music representations to further boost the
performance of the teacher model. For (i), we find that models trained with
short input length perform better in PR-AUC, whereas those trained with long
input length perform better in ROC-AUC. For (ii), we find that using harmonic
pitch class profiles (HPCP) consistently improve tagging performance, which
suggests that harmonic representation is useful for music emotion tagging.
Finally, we find that noisy student method only improves tagging results for
the case of long training length. Additionally, we find that ensembling
representations trained with different training lengths can improve tagging
results significantly, which suggest a possible direction to explore
incorporating multiple temporal resolutions in the network architecture for
future work.
- Abstract(参考訳): 我々は、音楽チャレンジにおける2021年の感情とテーマへのmirableの投稿を紹介する。
本研究では,音楽感情認識に半教師付き学習技術を活用することができるか?
これにより,画像分類領域におけるモデル性能が向上した,ノイズの多い学生学習を実験する。
ノイズの多い生徒法は強力な教師モデルを必要とするため、さらにその要因を掘り下げる。
(i)入力訓練期間、及び
(II)教師モデルの性能をさらに向上させる補完的な音楽表現。
のために
i) 短い入力長で訓練したモデルではPR-AUCが, 長い入力長で訓練したモデルではROC-AUCが改善した。
のために
(ii)高調波ピッチクラスプロファイル(hpcp)を用いた場合,音楽感情のタグ付けに高調波表現が有効であることが示唆された。
最後に,雑音のある学生法は,長い訓練期間の場合にのみタグ付け結果を改善する。
さらに,異なるトレーニング長でトレーニングされた表現をエンセンブルすることでタグ付け結果を大幅に改善できることがわかり,今後の作業のためにネットワークアーキテクチャに複数の時間分解能を組み込むことを検討できる方向が示唆された。
関連論文リスト
- Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning [2.61072980439312]
変換器によるバイバーサ表現に基づく記号的音楽理解モデルAdrial-MidiBERTを提案する。
逆学習に基づく非バイアス付き事前学習手法を導入し、トレーニング中にバイアスにつながるトークンの参加を最小限に抑えるとともに、事前学習と微調整のデータギャップを狭めるマスクファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:54:38Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。