論文の概要: A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2201.05782v1
- Date: Sat, 15 Jan 2022 07:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:54:52.268309
- Title: A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition
- Title(参考訳): シンボリック音楽感情認識のための新しいマルチタスク学習法
- Authors: Jibao Qiu and C. L. Philip Chen and Tong Zhang
- Abstract要約: Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.65908232134203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic Music Emotion Recognition(SMER) is to predict music emotion from
symbolic data, such as MIDI and MusicXML. Previous work mainly focused on
learning better representation via (mask) language model pre-training but
ignored the intrinsic structure of the music, which is extremely important to
the emotional expression of music. In this paper, we present a simple
multi-task framework for SMER, which incorporates the emotion recognition task
with other emotion-related auxiliary tasks derived from the intrinsic structure
of the music. The results show that our multi-task framework can be adapted to
different models. Moreover, the labels of auxiliary tasks are easy to be
obtained, which means our multi-task methods do not require manually annotated
labels other than emotion. Conducting on two publicly available datasets
(EMOPIA and VGMIDI), the experiments show that our methods perform better in
SMER task. Specifically, accuracy has been increased by 4.17 absolute point to
67.58 in EMOPIA dataset, and 1.97 absolute point to 55.85 in VGMIDI dataset.
Ablation studies also show the effectiveness of multi-task methods designed in
this paper.
- Abstract(参考訳): Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
それまでの研究は主に(マスク)言語モデルによる事前学習を通してより良い表現を学ぶことに集中していたが、音楽の本質的な構造は無視された。
本稿では,音楽の本質的な構造から派生した感情関連補助課題に感情認識タスクを組み込んだ,SMERのためのシンプルなマルチタスクフレームワークを提案する。
その結果,マルチタスクフレームワークを異なるモデルに適用できることがわかった。
さらに,補助タスクのラベルの取得も容易であり,マルチタスクの手法では感情以外の手作業によるラベルの付与は不要である。
2つの公開データセット (EMOPIA と VGMIDI) を用いて実験を行い,本手法がSMERタスクにおいて優れた性能を示すことを示す。
具体的には、EMOPIAデータセットでは4.17絶対点から67.58点、VGMIDIデータセットでは1.97絶対点から55.85点まで精度が向上した。
本稿では,マルチタスク手法の有効性についても検討した。
関連論文リスト
- Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task [3.489826905722736]
SemEval 2024は会話におけるマルチモーダル感情原因分析のタスクを導入している。
本稿では,この課題を発話ラベリングとシーケンスラベリングの問題として扱うモデルを提案する。
このタスクの公式リーダーボードでは、私たちのアーキテクチャは8位にランクされ、リーダーボードのF1スコアは0.1759でした。
論文 参考訳(メタデータ) (2024-04-02T16:32:49Z) - Impact of time and note duration tokenizations on deep learning symbolic
music modeling [0.0]
共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:56:37Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Comparison and Analysis of Deep Audio Embeddings for Music Emotion
Recognition [1.6143012623830792]
音楽感情認識タスクに使用するために,最先端の事前学習した深層音声埋め込み手法を用いる。
深い音声埋め込みは、人間工学を使わずにmerタスクのための音楽的感情意味論を表す。
論文 参考訳(メタデータ) (2021-04-13T21:09:54Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。