論文の概要: A Study on the Data Distribution Gap in Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2510.04688v1
- Date: Mon, 06 Oct 2025 10:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.813243
- Title: A Study on the Data Distribution Gap in Music Emotion Recognition
- Title(参考訳): 音楽感情認識におけるデータ分布ギャップに関する検討
- Authors: Joann Ching, Gerhard Widmer,
- Abstract要約: 音楽感情認識(英語: Music Emotion Recognition, MER)は、人間の知覚に深く結びついている課題である。
先行研究は、様々なジャンルを取り入れるよりも、特定の音楽スタイルに焦点を当てる傾向がある。
音声コンテンツから感情を認識するタスクには,次元的感情アノテーションを用いた5つのデータセットを探索する。
- 参考スコア(独自算出の注目度): 7.281487567929003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music Emotion Recognition (MER) is a task deeply connected to human perception, relying heavily on subjective annotations collected from contributors. Prior studies tend to focus on specific musical styles rather than incorporating a diverse range of genres, such as rock and classical, within a single framework. In this paper, we address the task of recognizing emotion from audio content by investigating five datasets with dimensional emotion annotations -- EmoMusic, DEAM, PMEmo, WTC, and WCMED -- which span various musical styles. We demonstrate the problem of out-of-distribution generalization in a systematic experiment. By closely looking at multiple data and feature sets, we provide insight into genre-emotion relationships in existing data and examine potential genre dominance and dataset biases in certain feature representations. Based on these experiments, we arrive at a simple yet effective framework that combines embeddings extracted from the Jukebox model with chroma features and demonstrate how, alongside a combination of several diverse training sets, this permits us to train models with substantially improved cross-dataset generalization capabilities.
- Abstract(参考訳): 音楽感情認識(MER)は、貢献者から収集された主観的アノテーションに大きく依存する、人間の知覚と深く結びついているタスクである。
先行研究は、ロックやクラシックのような様々なジャンルを単一の枠組みに組み込むよりも、特定の音楽スタイルに焦点を当てる傾向にある。
本稿では, 音声コンテンツから感情を認識するタスクを, EmoMusic, DEAM, PMEmo, WTC, WCMEDの5つのデータセットを用いて検討することで解決する。
系統実験において,分布外一般化の問題を示す。
複数のデータや特徴集合を綿密に調べることで、既存のデータにおけるジャンル・感情関係の洞察を与え、特定の特徴表現における潜在的ジャンル優位性とデータセットバイアスを調べる。
これらの実験に基づいて、Jukeboxモデルから抽出した埋め込みとクロマ機能を組み合わせた、シンプルで効果的なフレームワークに到達し、様々なトレーニングセットを組み合わせることで、クロスデータセットの一般化機能を大幅に改善したモデルのトレーニングを可能にした。
関連論文リスト
- Towards Unified Music Emotion Recognition across Dimensional and Categorical Models [9.62904012066486]
音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがデータセット間で不均一であるという事実にある。
分類ラベルと次元ラベルを組み合わせた統合マルチタスク学習フレームワークを提案する。
我々の研究は、一つの統合されたフレームワークにおけるカテゴリー的感情ラベルと次元的感情ラベルの組み合わせを可能にすることで、MERに大きな貢献をしている。
論文 参考訳(メタデータ) (2025-02-06T11:20:22Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Joint Learning of Emotions in Music and Generalized Sounds [6.854732863866882]
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
論文 参考訳(メタデータ) (2024-08-04T12:19:03Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。