論文の概要: Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning
- arxiv url: http://arxiv.org/abs/2412.19200v1
- Date: Thu, 26 Dec 2024 12:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:08.579962
- Title: Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning
- Title(参考訳): Dual-Scale Attention-based Meta-Learning を用いた個人化動的音楽感情認識
- Authors: Dengming Zhang, Weitao You, Ziheng Liu, Lingyun Sun, Pei Chen,
- Abstract要約: 動的音楽感情認識(DMER)のためのDSAML(Dual-Scale Attention-Based Meta-Learning)手法を提案する。
提案手法は,2次元特徴抽出器の機能を融合し,短期および長期の依存関係をキャプチャする。
本手法は従来のDMERとPDMERの両方で最先端の性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 15.506299212817034
- License:
- Abstract: Dynamic Music Emotion Recognition (DMER) aims to predict the emotion of different moments in music, playing a crucial role in music information retrieval. The existing DMER methods struggle to capture long-term dependencies when dealing with sequence data, which limits their performance. Furthermore, these methods often overlook the influence of individual differences on emotion perception, even though everyone has their own personalized emotional perception in the real world. Motivated by these issues, we explore more effective sequence processing methods and introduce the Personalized DMER (PDMER) problem, which requires models to predict emotions that align with personalized perception. Specifically, we propose a Dual-Scale Attention-Based Meta-Learning (DSAML) method. This method fuses features from a dual-scale feature extractor and captures both short and long-term dependencies using a dual-scale attention transformer, improving the performance in traditional DMER. To achieve PDMER, we design a novel task construction strategy that divides tasks by annotators. Samples in a task are annotated by the same annotator, ensuring consistent perception. Leveraging this strategy alongside meta-learning, DSAML can predict personalized perception of emotions with just one personalized annotation sample. Our objective and subjective experiments demonstrate that our method can achieve state-of-the-art performance in both traditional DMER and PDMER.
- Abstract(参考訳): 動的音楽感情認識(DMER)は、音楽情報検索において重要な役割を担いながら、様々なモーメントの感情を予測することを目的としている。
既存のDMERメソッドは、シーケンスデータを扱う際に長期的な依存関係をキャプチャするのに苦労している。
さらに、これらの手法は、実世界において、各自の個性的な感情知覚を持っているにもかかわらず、個人差が感情知覚に与える影響をしばしば見落としている。
これらの課題に触発され、より効果的なシーケンス処理手法を探求し、パーソナライズドDMER(Personalized DMER)問題を導入する。
具体的には,DSAML(Dual-Scale Attention-Based Meta-Learning)手法を提案する。
本手法は,デュアルスケール特徴抽出器の特徴を融合し,2重スケールアテンション変換器を用いて短・長期の依存関係を捕捉し,従来のDMERの性能を向上させる。
PDMERを実現するために,アノテータによってタスクを分割する新しいタスク構築戦略を設計する。
タスクのサンプルは、同じアノテータによってアノテートされ、一貫した認識が保証される。
メタラーニングと共にこの戦略を活用することで、DSAMLは1つのパーソナライズされたアノテーションサンプルで感情のパーソナライズされた知覚を予測することができる。
本手法は従来のDMERとPDMERの両方で最先端の性能を実現することができることを示す。
関連論文リスト
- Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation [19.139752434303688]
感情的な側面を管理することは、自動音楽生成の課題である。
本稿では,ピアノ演奏における感情のゆがみについて,2段階の枠組みを用いて検討する。
論文 参考訳(メタデータ) (2024-07-30T16:29:28Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Recognizing Emotions evoked by Movies using Multitask Learning [3.4290619267487488]
誘発感情を認識する方法は通常、人間の注釈付きデータに基づいて訓練される。
本稿では,Single-Task (ST) アーキテクチャとMulti-Task (MT) アーキテクチャの2つのディープラーニングアーキテクチャを提案する。
以上の結果から,MT手法は,アグリゲートアノテーションを直接訓練した手法と比較して,各ビューアとアグリゲートアノテーションをより正確にモデル化できることがわかった。
論文 参考訳(メタデータ) (2021-07-30T10:21:40Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。