論文の概要: Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities
- arxiv url: http://arxiv.org/abs/2106.07787v2
- Date: Wed, 16 Jun 2021 16:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 12:16:12.737581
- Title: Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities
- Title(参考訳): 音源と直感的知覚量への音楽感情予測の追跡
- Authors: Shreyan Chowdhury, Verena Praher, Gerhard Widmer
- Abstract要約: 音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
- 参考スコア(独自算出の注目度): 6.832341432995627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music emotion recognition is an important task in MIR (Music Information
Retrieval) research. Owing to factors like the subjective nature of the task
and the variation of emotional cues between musical genres, there are still
significant challenges in developing reliable and generalizable models. One
important step towards better models would be to understand what a model is
actually learning from the data and how the prediction for a particular input
is made. In previous work, we have shown how to derive explanations of model
predictions in terms of spectrogram image segments that connect to the
high-level emotion prediction via a layer of easily interpretable perceptual
features. However, that scheme lacks intuitive musical comprehensibility at the
spectrogram level. In the present work, we bridge this gap by merging audioLIME
-- a source-separation based explainer -- with mid-level perceptual features,
thus forming an intuitive connection chain between the input audio and the
output emotion predictions. We demonstrate the usefulness of this method by
applying it to debug a biased emotion prediction model.
- Abstract(参考訳): 楽曲感情認識はmir(music information retrieval)研究において重要な課題である。
課題の主観的性質や音楽ジャンル間の感情的手がかりの変化などの要因から、信頼性と一般化可能なモデルを開発する上で、依然として大きな課題がある。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるもの、そして特定の入力の予測方法を理解することである。
これまでの研究では,高レベルの感情予測に接続するスペクトル画像セグメントを用いて,容易に解釈可能な知覚的特徴の層を通じてモデル予測の説明を導出する方法を示した。
しかし、このスキームはスペクトログラムレベルで直感的な音楽理解性に欠ける。
本研究では,音源分離に基づく説明器であるaudiolimeと,中間レベルの知覚的特徴を融合することにより,入力音声と出力感情予測との直感的な接続連鎖を形成することにより,このギャップを埋める。
偏りのある感情予測モデルをデバッグするために,本手法の有効性を示す。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。
我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文 参考訳(メタデータ) (2023-01-15T03:13:09Z) - Relating Human Perception of Musicality to Prediction in a Predictive
Coding Model [0.8062120534124607]
人間の音楽知覚をモデル化するための予測符号化にインスパイアされたニューラルネットワークの利用について検討する。
このネットワークは階層視覚野における反復的相互作用の計算神経科学理論に基づいて開発された。
このネットワークを用いて階層的な聴覚システムをモデル化し、ランダムなピッチ列の楽しさに関して、人間と同じような選択をするかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-29T12:20:01Z) - Song Emotion Recognition: a Performance Comparison Between Audio
Features and Artificial Neural Networks [0.0]
この問題に対処するために使用される最も一般的な特徴とモデルについて検討し、カペラの歌で感情を認識するのに適したものを明らかにする。
本稿では,この課題に対処するために,近年の出版物で用いられている最も一般的な特徴とモデルについて検討し,カペラ歌の感情認識に最も適しているものについて述べる。
論文 参考訳(メタデータ) (2022-09-24T16:13:25Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - Visualizing Ensemble Predictions of Music Mood [4.5383186433033735]
可視化技術は、時間軸に沿った異なる音楽セクションにおいて、一般的な予測と不確実性を効果的に伝達できることを示す。
我々は、視聴者が最も人気のある予測をより容易に観察し、測定できる「Dual-flux ThemeRiver」と呼ばれる新しい「ThemeRiver」を導入した。
論文 参考訳(メタデータ) (2021-12-14T18:13:21Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。