Fugu-MT 論文翻訳(概要): Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset

論文の概要: Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset

arxiv url: http://arxiv.org/abs/2307.14783v1
Date: Thu, 27 Jul 2023 11:24:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 14:39:56.867149
Title: Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset
Title（参考訳）: Emotion4MIDI: 歌詞ベースの感情ラベル付きシンボリック音楽データセット
Authors: Serkan Sulun, Pedro Oliveira, Paula Viana
Abstract要約: 12kのMIDI曲からなる大規模感情ラベル付きシンボリック・ミュージック・データセットを提案する。最初に、GoEmotionsデータセット上で感情分類モデルを訓練し、ベースラインの半分の大きさのモデルで最先端の結果を得た。我々のデータセットは、様々なきめ細かい感情をカバーし、音楽と感情の関連性を探るための貴重なリソースを提供する。
参考スコア（独自算出の注目度）: 1.3607388598209322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a new large-scale emotion-labeled symbolic music dataset consisting of 12k MIDI songs. To create this dataset, we first trained emotion classification models on the GoEmotions dataset, achieving state-of-the-art results with a model half the size of the baseline. We then applied these models to lyrics from two large-scale MIDI datasets. Our dataset covers a wide range of fine-grained emotions, providing a valuable resource to explore the connection between music and emotions and, especially, to develop models that can generate music based on specific emotions. Our code for inference, trained models, and datasets are available online.
Abstract（参考訳）: 12kのMIDI曲からなる大規模感情ラベル付きシンボル音楽データセットを提案する。このデータセットを作成するために、まずGoEmotionsデータセット上で感情分類モデルをトレーニングし、ベースラインの半分の大きさのモデルで最先端の結果を得た。次に、これらのモデルを2つの大規模MIDIデータセットの歌詞に適用した。我々のデータセットは、幅広いきめ細かい感情をカバーし、音楽と感情の関連性を探究するための貴重なリソースを提供し、特に特定の感情に基づいて音楽を生成するモデルを開発する。推論、トレーニングされたモデル、データセットのコードはオンラインで利用可能です。

関連論文リスト

Story2MIDI: Emotionally Aligned Music Generation from Text [38.36870481571071]
テキストから感情に沿った音楽を生成するシーケンス・ツー・シーケンス・トランスフォーマー・モデルであるStory2MIDIを紹介する。以上の結果から,本モデルは音楽の感情関連特徴を効果的に学習し,その生成過程に組み込むことが示唆された。
論文参考訳（メタデータ） (2025-12-01T20:35:18Z)
EMO100DB: An Open Dataset of Improvised Songs with Emotion Data [0.8536845899508164]
Emo100DBは、ラッセルの感情の概略モデルに基づく感情データで記録され、書き起こされた即興の曲からなるデータセットである。このデータセットは、メロディ、歌詞、演奏、歌い、20人の若者によって録音された楽器伴奏からなる即興の曲を収集して開発された。
論文参考訳（メタデータ） (2025-11-06T19:07:12Z)
From Joy to Fear: A Benchmark of Emotion Estimation in Pop Song Lyrics [40.12543056558646]
歌詞の感情的内容は、聴取者の体験を形作り、音楽的嗜好に影響を与える上で重要な役割を担っている。本稿では,6つの基本感情に対応する6つの感情強度スコアを予測し,歌詞のマルチラベル感情属性の課題について検討する。
論文参考訳（メタデータ） (2025-09-06T06:28:28Z)
Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries [1.1743167854433303]
EMSYNCはビデオベースのシンボリック音楽生成モデルであり、音楽とビデオの感情的内容と時間的境界を一致させる。本研究では,音節をシーンカットで予測・調整できる新しい時間的条件付け機構である境界オフセットを導入する。主観的聴取テストにおいて、EMSYNCは、音楽理論を意識した参加者だけでなく、一般の聴取者に対しても、すべての主観的尺度で最先端のモデルより優れている。
論文参考訳（メタデータ） (2025-02-14T13:32:59Z)
Are We There Yet? A Brief Survey of Music Emotion Prediction Datasets, Models and Outstanding Challenges [9.62904012066486]
利用可能な音楽感情データセットの概要を概観し,評価基準とフィールドでの競争について論じる。我々は、データセットの品質、アノテーションの一貫性、モデル一般化に関連する問題など、音楽の感情を正確に捉え続ける課題を強調した。発見を補完するGitHubリポジトリも用意しています。
論文参考訳（メタデータ） (2024-06-13T05:00:27Z)
Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文参考訳（メタデータ） (2024-06-12T20:12:29Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文参考訳（メタデータ） (2024-06-04T12:21:55Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-15T07:45:10Z)
Using a Bi-directional LSTM Model with Attention Mechanism trained on MIDI Data for Generating Unique Music [0.25559196081940677]
本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
論文参考訳（メタデータ） (2020-11-02T06:43:28Z)
Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-21T06:10:39Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-21T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。