論文の概要: A Theory-Based Explainable Deep Learning Architecture for Music Emotion
- arxiv url: http://arxiv.org/abs/2408.07113v1
- Date: Tue, 13 Aug 2024 16:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 15:07:25.859241
- Title: A Theory-Based Explainable Deep Learning Architecture for Music Emotion
- Title(参考訳): 音楽感情のための理論に基づく説明可能なディープラーニングアーキテクチャ
- Authors: Hortense Fong, Vineet Kumar, K. Sudhir,
- Abstract要約: 本稿では,音楽に対する感情応答を予測するための理論ベースで説明可能な深層学習畳み込みニューラルネットワーク(CNN)を開発した。
我々は、音響物理から周波数調和構造を利用する新しいCNNフィルタを設計し、音楽的特徴の知覚に影響を及ぼす。
本稿では,デジタル広告を応用したモデルの有用性について解説する。
- 参考スコア(独自算出の注目度): 5.463499090813422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper paper develops a theory-based, explainable deep learning convolutional neural network (CNN) classifier to predict the time-varying emotional response to music. We design novel CNN filters that leverage the frequency harmonics structure from acoustic physics known to impact the perception of musical features. Our theory-based model is more parsimonious, but provides comparable predictive performance to atheoretical deep learning models, while performing better than models using handcrafted features. Our model can be complemented with handcrafted features, but the performance improvement is marginal. Importantly, the harmonics-based structure placed on the CNN filters provides better explainability for how the model predicts emotional response (valence and arousal), because emotion is closely related to consonance--a perceptual feature defined by the alignment of harmonics. Finally, we illustrate the utility of our model with an application involving digital advertising. Motivated by YouTube mid-roll ads, we conduct a lab experiment in which we exogenously insert ads at different times within videos. We find that ads placed in emotionally similar contexts increase ad engagement (lower skip rates, higher brand recall rates). Ad insertion based on emotional similarity metrics predicted by our theory-based, explainable model produces comparable or better engagement relative to atheoretical models.
- Abstract(参考訳): 本稿では、音楽に対する時間変化の感情応答を予測するための理論に基づく、説明可能な深層学習畳み込みニューラルネットワーク(CNN)分類器を開発する。
我々は、音響物理から周波数調和構造を利用する新しいCNNフィルタを設計し、音楽的特徴の知覚に影響を及ぼす。
我々の理論に基づくモデルは、より同義的であるが、非理論的な深層学習モデルに匹敵する予測性能を提供する一方で、手作りの特徴を用いたモデルよりも優れた性能を発揮する。
我々のモデルは手作りの機能で補うことができるが、性能改善は限界がある。
重要なことは、CNNフィルタ上に置かれるハーモニクスに基づく構造は、感情が子音と密接に関連しているため、モデルが感情の反応(価と覚醒)を予測する方法について、より良い説明性を提供する。
最後に,デジタル広告を応用したモデルの有用性について述べる。
YouTubeのミッドロール広告に触発されて、実験室で、ビデオ内の異なる時間に広告を異質に挿入する実験を行った。
感情的に類似した状況に置かれた広告は、広告エンゲージメントを増大させる(低いスキップ率、ブランドリコール率)。
我々の理論に基づく説明可能なモデルによって予測される感情的類似度指標に基づく広告挿入は、無理論モデルに対して同等またはより良いエンゲージメントを生み出す。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Music Emotion Prediction Using Recurrent Neural Networks [8.867897390286815]
本研究は,聴取者の感情状態に合うように音楽を調整することで,音楽レコメンデーションシステムを強化し,治療介入を支援することを目的とする。
ラッセルの感情クアドラントを用いて、音楽を4つの異なる感情領域に分類し、これらのカテゴリーを正確に予測できるモデルを開発する。
我々のアプローチは、Librosaを使って包括的なオーディオ機能を抽出し、標準RNN、双方向RNN、Long Short-Term Memory(LSTM)ネットワークなど、さまざまなリカレントニューラルネットワークアーキテクチャを適用します。
論文 参考訳(メタデータ) (2024-05-10T18:03:20Z) - Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward
Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T10:42:26Z) - Modeling Perceptual Loudness of Piano Tone: Theory and Applications [5.332554289408091]
本論文では,ピアノ音のモデル化による自然な音高知覚の理論と応用について検討する。
この理論をピアノ制御伝達に適用し、2つの異なるピアノのMIDI速度を調整する。
実験により,我々の理論的ラウドネスモデリングとそれに対応する性能制御伝達アルゴリズムの両方がベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-09-21T21:57:14Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - StrengthNet: Deep Learning-based Emotion Strength Assessment for
Emotional Speech Synthesis [82.39099867188547]
本稿では,強度予測のための深層学習に基づく感情力評価ネットワークを提案する。
本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。
実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する地上の真理スコアと高い相関性を示した。
論文 参考訳(メタデータ) (2021-10-07T03:16:15Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Learning Opinion Dynamics From Social Traces [25.161493874783584]
本稿では,現実の社会的トレースに,生成的,エージェントライクな意見力学モデルを適用するための推論機構を提案する。
本稿では,古典的エージェントに基づく意見力学モデルから,その生成的モデルへの変換による提案について紹介する。
われわれのモデルをRedditの現実世界のデータに適用して、バックファイア効果の影響に関する長年にわたる疑問を探る。
論文 参考訳(メタデータ) (2020-06-02T14:48:17Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。