論文の概要: Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.17946v1
- Date: Mon, 15 Dec 2025 03:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.112676
- Title: Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition
- Title(参考訳): メタボリック・ミュージック・感情認識のためのモードガイドトニティー・インジェクション
- Authors: Haiying Xia, Zhongyi Huang, Yumei Tan, Shuxiang Song,
- Abstract要約: 音楽の感情認識は、象徴的な音楽理解において重要な課題である。
近年のアプローチでは、音楽の意味を感情ラベルにマッピングする微調整モデルによる有望な結果が示されている。
モデルにモードに関する心理的洞察を取り入れたモードガイド強化(MoGE)戦略を提案する。
- 参考スコア(独自算出の注目度): 11.051812953517521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music emotion recognition is a key task in symbolic music understanding (SMER). Recent approaches have shown promising results by fine-tuning large-scale pre-trained models (e.g., MIDIBERT, a benchmark in symbolic music understanding) to map musical semantics to emotional labels. While these models effectively capture distributional musical semantics, they often overlook tonal structures, particularly musical modes, which play a critical role in emotional perception according to music psychology. In this paper, we investigate the representational capacity of MIDIBERT and identify its limitations in capturing mode-emotion associations. To address this issue, we propose a Mode-Guided Enhancement (MoGE) strategy that incorporates psychological insights on mode into the model. Specifically, we first conduct a mode augmentation analysis, which reveals that MIDIBERT fails to effectively encode emotion-mode correlations. We then identify the least emotion-relevant layer within MIDIBERT and introduce a Mode-guided Feature-wise linear modulation injection (MoFi) framework to inject explicit mode features, thereby enhancing the model's capability in emotional representation and inference. Extensive experiments on the EMOPIA and VGMIDI datasets demonstrate that our mode injection strategy significantly improves SMER performance, achieving accuracies of 75.2% and 59.1%, respectively. These results validate the effectiveness of mode-guided modeling in symbolic music emotion recognition.
- Abstract(参考訳): 音楽感情認識は、シンボリック音楽理解(SMER)において重要な課題である。
近年,音楽のセマンティクスを感情ラベルにマッピングするために,大規模事前学習モデル(例えば,MIDIBERT,記号音楽理解のベンチマーク)を微調整することで,有望な結果が得られた。
これらのモデルが効果的に分布音楽の意味を捉えている一方で、音楽心理学において感情知覚において重要な役割を果たす音調構造、特に音楽モードを見落としていることが多い。
本稿では,MIDIBERTの表現能力について検討し,モデム感情関連を捉える際の限界を明らかにする。
この問題に対処するために,モデルにモードに関する心理的洞察を取り入れたモードガイド強化(MoGE)戦略を提案する。
具体的には、まずモード拡張分析を行い、MIDIBERTが感情とモードの相関を効果的に符号化できないことを示す。
次に、MIDIBERT内の最小感情関連層を特定し、明示的なモード特徴を注入するためのモード誘導特徴量線形変調注入(MoFi)フレームワークを導入し、感情表現と推論におけるモデルの能力を高める。
EMOPIAとVGMIDIデータセットの大規模な実験により、モード注入戦略はSMERのパフォーマンスを大幅に改善し、それぞれ75.2%と59.1%の精度を達成した。
これらの結果は、シンボリック音楽感情認識におけるモード誘導モデリングの有効性を検証した。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation [26.273309051211204]
Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。
階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。
リズムモデリングでは、低分解能メル-スペクトログラム、テンポグラム、オンセット検出機能(ODF)など、いくつかのリズム表現を評価することから始める。
論文 参考訳(メタデータ) (2025-11-12T08:02:06Z) - SyMuPe: Affective and Controllable Symbolic Music Performance [0.00746020873338928]
我々は、感情的かつ制御可能なピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを提案する。
当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。
感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
論文 参考訳(メタデータ) (2025-11-05T12:42:08Z) - Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music [47.95375326361059]
本稿では,新しいシンボリック音楽生成フレームワークであるAmadeusを紹介する。
アマデウスは、ノート配列の自己回帰モデルと属性の双方向離散拡散モデルを採用している。
非条件およびテキスト条件付き生成タスクについて広範な実験を行う。
論文 参考訳(メタデータ) (2025-08-28T11:15:44Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation [19.139752434303688]
感情的な側面を管理することは、自動音楽生成の課題である。
本稿では,ピアノ演奏における感情のゆがみについて,2段階の枠組みを用いて検討する。
論文 参考訳(メタデータ) (2024-07-30T16:29:28Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。