論文の概要: Comparison and Analysis of Deep Audio Embeddings for Music Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2104.06517v1
- Date: Tue, 13 Apr 2021 21:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 01:49:00.218324
- Title: Comparison and Analysis of Deep Audio Embeddings for Music Emotion
Recognition
- Title(参考訳): 音楽感情認識のためのディープオーディオ埋め込みの比較と解析
- Authors: Eunjeong Koh and Shlomo Dubnov
- Abstract要約: 音楽感情認識タスクに使用するために,最先端の事前学習した深層音声埋め込み手法を用いる。
深い音声埋め込みは、人間工学を使わずにmerタスクのための音楽的感情意味論を表す。
- 参考スコア(独自算出の注目度): 1.6143012623830792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion is a complicated notion present in music that is hard to capture even
with fine-tuned feature engineering. In this paper, we investigate the utility
of state-of-the-art pre-trained deep audio embedding methods to be used in the
Music Emotion Recognition (MER) task. Deep audio embedding methods allow us to
efficiently capture the high dimensional features into a compact
representation. We implement several multi-class classifiers with deep audio
embeddings to predict emotion semantics in music. We investigate the
effectiveness of L3-Net and VGGish deep audio embedding methods for music
emotion inference over four music datasets. The experiments with several
classifiers on the task show that the deep audio embedding solutions can
improve the performances of the previous baseline MER models. We conclude that
deep audio embeddings represent musical emotion semantics for the MER task
without expert human engineering.
- Abstract(参考訳): 感情は音楽に存在する複雑な概念であり、微調整された特徴工学でも捉えにくい。
本稿では,音楽感情認識(MER)タスクにおいて,最先端の訓練済みディープオーディオ埋め込み手法の有用性について検討する。
深層オーディオ埋め込み手法により,高次元特徴をコンパクトな表現に効率的に捉えることができる。
音楽における感情セマンティクスを予測するために,音声埋め込みの深いマルチクラス分類器を実装した。
4つの音楽データセットに対してL3-NetとVGGishのディープオーディオ埋め込み法の有効性を検討した。
タスク上のいくつかの分類器を用いた実験により、深いオーディオ埋め込みソリューションは、以前のベースラインmerモデルのパフォーマンスを向上させることができる。
深い音声埋め込みは人間工学を使わずにmerタスクのための音楽的感情意味論を表すと結論づける。
関連論文リスト
- Rethinking Emotion Bias in Music via Frechet Audio Distance [11.89773040110695]
我々は、音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。
本稿では,Frechet Audio Distance(FAD)と並行して,多様なオーディオエンコーダを用いる。
論文 参考訳(メタデータ) (2024-09-23T20:59:15Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。