論文の概要: Multi-Modality in Music: Predicting Emotion in Music from High-Level
Audio Features and Lyrics
- arxiv url: http://arxiv.org/abs/2302.13321v1
- Date: Sun, 26 Feb 2023 13:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:44:59.269611
- Title: Multi-Modality in Music: Predicting Emotion in Music from High-Level
Audio Features and Lyrics
- Title(参考訳): 音楽のマルチモーダル:ハイレベルオーディオ機能と歌詞による音楽の感情予測
- Authors: Tibor Krols, Yana Nikolova, Ninell Oldenburg
- Abstract要約: 本稿では,音楽感情認識(MER)のマルチモーダルアプローチが,ハイレベルな楽曲の特徴や歌詞において,ユニモーダルアプローチよりも優れているかどうかを検証することを目的とする。
Spotify APIから検索した11の楽曲機能と、感情、TF-IDF、Anewなどの歌詞機能を組み合わせて、評価と興奮を予測しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to test whether a multi-modal approach for music emotion
recognition (MER) performs better than a uni-modal one on high-level song
features and lyrics. We use 11 song features retrieved from the Spotify API,
combined lyrics features including sentiment, TF-IDF, and Anew to predict
valence and arousal (Russell, 1980) scores on the Deezer Mood Detection Dataset
(DMDD) (Delbouys et al., 2018) with 4 different regression models. We find that
out of the 11 high-level song features, mainly 5 contribute to the performance,
multi-modal features do better than audio alone when predicting valence. We
made our code publically available.
- Abstract(参考訳): 本稿では,音楽感情認識(MER)のマルチモーダルアプローチが,ハイレベルな楽曲の特徴や歌詞において,ユニモーダルアプローチよりも優れているかどうかを検証することを目的とする。
spotify apiから検索された11の歌機能を使用し、感情、tf-idf、anewなどの歌詞機能を組み合わせて、deezer mood detection dataset(dmdd)(delbouys et al.、2018年)のvalenceとarousalのスコアを4つの異なる回帰モデルで予測する。
ハイレベルな11曲のうち、主に5曲はパフォーマンスに寄与するが、マルチモーダル機能はヴァレンスを予測するときだけでは音声より優れている。
私たちはコードを一般公開しました。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - SONICS: Synthetic Or Not -- Identifying Counterfeit Songs [0.16777183511743465]
我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
特に、長いオーディオサンプルでは、私たちの最高のパフォーマンスの亜種は、ViTのスコアを8%上回り、スピードは38%、メモリ使用量は26%減った。
論文 参考訳(メタデータ) (2024-08-26T08:02:57Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics [0.0]
Spotifyから収集したTeluguの歌詞を手動で注釈付けしたデータセットを提示する。
2つの分類手法を用いて2つの音楽感情認識モデルを作成する。
データセットを、歌詞、アノテーション、Spotify IDで公開しています。
論文 参考訳(メタデータ) (2023-03-16T14:47:52Z) - An Analysis of Classification Approaches for Hit Song Prediction using
Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。
k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。
その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文 参考訳(メタデータ) (2023-01-31T09:48:53Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Comparison and Analysis of Deep Audio Embeddings for Music Emotion
Recognition [1.6143012623830792]
音楽感情認識タスクに使用するために,最先端の事前学習した深層音声埋め込み手法を用いる。
深い音声埋め込みは、人間工学を使わずにmerタスクのための音楽的感情意味論を表す。
論文 参考訳(メタデータ) (2021-04-13T21:09:54Z) - Neural Network architectures to classify emotions in Indian Classical
Music [0.0]
JUMusEmoDBと呼ばれる新しいデータセットは、現在400のオーディオクリップ(それぞれ30秒)を持っている。
教師付き分類のために、我々は既存の4つの深層畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを使用した。
インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点においても独特である。
論文 参考訳(メタデータ) (2021-02-01T03:41:25Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。