論文の概要: Memo2496: Expert-Annotated Dataset and Dual-View Adaptive Framework for Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.13998v1
- Date: Tue, 16 Dec 2025 01:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.539311
- Title: Memo2496: Expert-Annotated Dataset and Dual-View Adaptive Framework for Music Emotion Recognition
- Title(参考訳): Memo2496:音楽感情認識のためのエキスパートアノテーション付きデータセットとデュアルビュー適応フレームワーク
- Authors: Qilin Li, C. L. Philip Chen, TongZhang,
- Abstract要約: Music Emotion Recogniser (MER) の研究は、高品質なアノテートデータセットの制限と、クロストラック機能ドリフトに対処することの難しさにより、課題に直面している。
この研究は、これらの問題に対処するための2つの主要な貢献を示す。
- 参考スコア(独自算出の注目度): 57.869107847456725
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Music Emotion Recogniser (MER) research faces challenges due to limited high-quality annotated datasets and difficulties in addressing cross-track feature drift. This work presents two primary contributions to address these issues. Memo2496, a large-scale dataset, offers 2496 instrumental music tracks with continuous valence arousal labels, annotated by 30 certified music specialists. Annotation quality is ensured through calibration with extreme emotion exemplars and a consistency threshold of 0.25, measured by Euclidean distance in the valence arousal space. Furthermore, the Dual-view Adaptive Music Emotion Recogniser (DAMER) is introduced. DAMER integrates three synergistic modules: Dual Stream Attention Fusion (DSAF) facilitates token-level bidirectional interaction between Mel spectrograms and cochleagrams via cross attention mechanisms; Progressive Confidence Labelling (PCL) generates reliable pseudo labels employing curriculum-based temperature scheduling and consistency quantification using Jensen Shannon divergence; and Style Anchored Memory Learning (SAML) maintains a contrastive memory queue to mitigate cross-track feature drift. Extensive experiments on the Memo2496, 1000songs, and PMEmo datasets demonstrate DAMER's state-of-the-art performance, improving arousal dimension accuracy by 3.43%, 2.25%, and 0.17%, respectively. Ablation studies and visualisation analyses validate each module's contribution. Both the dataset and source code are publicly available.
- Abstract(参考訳): Music Emotion Recogniser (MER) の研究は、高品質なアノテートデータセットの制限と、クロストラック機能ドリフトに対処することの難しさにより、課題に直面している。
この研究は、これらの問題に対処するための2つの主要な貢献を示す。
大規模なデータセットであるMemo2496は、30人の認定音楽スペシャリストによって注釈付けされた、2496のインストゥルメンタル・ミュージック・トラックと連続的なヴァレンス・アレンジ・レーベルを提供する。
アノテーションの品質は、極度の感情経験を持つキャリブレーションと、原子価覚醒空間におけるユークリッド距離によって測定される濃度閾値0.25によって確保される。
また、DAMER(Dual-view Adaptive Music Emotion Recogniser)も導入されている。
DAMERは3つの相乗的モジュールを統合している: Dual Stream Attention Fusion (DSAF)はメルスペクトログラムとコクリーグラム間のトークンレベルの双方向相互作用をクロスアテンション機構を介して促進し、Progressive Confidence Labelling (PCL)は、Jensen Shannonの発散を利用したカリキュラムベースの温度スケジューリングと一貫性の定量化を用いた信頼できる擬似ラベルを生成する。
Memo2496、1000songs、およびPMEmoデータセットの大規模な実験では、DAMERの最先端性能が示され、それぞれ3.43%、2.25%、0.17%の覚醒次元の精度が向上した。
アブレーション研究と可視化分析は各モジュールの寄与を検証する。
データセットとソースコードの両方が公開されている。
関連論文リスト
- SG-XDEAT: Sparsity-Guided Cross-Dimensional and Cross-Encoding Attention with Target-Aware Conditioning in Tabular Learning [0.0]
本稿では,表データの教師あり学習のための新しいフレームワークであるSG-XDEATを提案する。
中心となるSG-XDEATはデュアルストリームエンコーダを使用し、各入力機能を2つの並列表現に分解する。
これらの双対表現は、注意に基づくモジュールの階層的なスタックを通して伝播される。
論文 参考訳(メタデータ) (2025-10-14T15:56:40Z) - A Study on the Data Distribution Gap in Music Emotion Recognition [7.281487567929003]
音楽感情認識(英語: Music Emotion Recognition, MER)は、人間の知覚に深く結びついている課題である。
先行研究は、様々なジャンルを取り入れるよりも、特定の音楽スタイルに焦点を当てる傾向がある。
音声コンテンツから感情を認識するタスクには,次元的感情アノテーションを用いた5つのデータセットを探索する。
論文 参考訳(メタデータ) (2025-10-06T10:57:05Z) - Towards Unified Music Emotion Recognition across Dimensional and Categorical Models [9.62904012066486]
音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがデータセット間で不均一であるという事実にある。
分類ラベルと次元ラベルを組み合わせた統合マルチタスク学習フレームワークを提案する。
我々の研究は、一つの統合されたフレームワークにおけるカテゴリー的感情ラベルと次元的感情ラベルの組み合わせを可能にすることで、MERに大きな貢献をしている。
論文 参考訳(メタデータ) (2025-02-06T11:20:22Z) - Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning [15.506299212817034]
動的音楽感情認識(DMER)のためのDSAML(Dual-Scale Attention-Based Meta-Learning)手法を提案する。
提案手法は,2次元特徴抽出器の機能を融合し,短期および長期の依存関係をキャプチャする。
本手法は従来のDMERとPDMERの両方で最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-12-26T12:47:35Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。