論文の概要: MusER: Musical Element-Based Regularization for Generating Symbolic
Music with Emotion
- arxiv url: http://arxiv.org/abs/2312.10307v2
- Date: Tue, 2 Jan 2024 02:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 19:29:40.464906
- Title: MusER: Musical Element-Based Regularization for Generating Symbolic
Music with Emotion
- Title(参考訳): MusER:シンボリック音楽の感情生成のための音楽要素ベース正規化
- Authors: Shulei Ji and Xinyu Yang
- Abstract要約: 本稿では,音楽的要素に基づく正則化を潜在空間に導入し,異なる要素をアンタングルする手法を提案する。
潜在空間を可視化することにより、 MusER は非絡み合いで解釈可能な潜在空間が得られると結論付ける。
実験の結果,MusERは感情音楽を生成する最先端のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 16.658813060879293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating music with emotion is an important task in automatic music
generation, in which emotion is evoked through a variety of musical elements
(such as pitch and duration) that change over time and collaborate with each
other. However, prior research on deep learning-based emotional music
generation has rarely explored the contribution of different musical elements
to emotions, let alone the deliberate manipulation of these elements to alter
the emotion of music, which is not conducive to fine-grained element-level
control over emotions. To address this gap, we present a novel approach
employing musical element-based regularization in the latent space to
disentangle distinct elements, investigate their roles in distinguishing
emotions, and further manipulate elements to alter musical emotions.
Specifically, we propose a novel VQ-VAE-based model named MusER. MusER
incorporates a regularization loss to enforce the correspondence between the
musical element sequences and the specific dimensions of latent variable
sequences, providing a new solution for disentangling discrete sequences.
Taking advantage of the disentangled latent vectors, a two-level decoding
strategy that includes multiple decoders attending to latent vectors with
different semantics is devised to better predict the elements. By visualizing
latent space, we conclude that MusER yields a disentangled and interpretable
latent space and gain insights into the contribution of distinct elements to
the emotional dimensions (i.e., arousal and valence). Experimental results
demonstrate that MusER outperforms the state-of-the-art models for generating
emotional music in both objective and subjective evaluation. Besides, we
rearrange music through element transfer and attempt to alter the emotion of
music by transferring emotion-distinguishable elements.
- Abstract(参考訳): 感情による音楽の生成は、時間とともに変化し、互いに協調する様々な音楽要素(ピッチや持続時間など)を通じて感情を誘発する自動音楽生成において重要なタスクである。
しかしながら、深層学習に基づく感情音楽生成に関する先行研究は、感情に対する要素レベルの微粒度制御に起因しない、音楽の感情を変えるためにこれらの要素を意図的に操作することなしに、感情への異なる音楽要素の寄与をほとんど探求していない。
このギャップに対処するために, 潜在空間における音楽的要素に基づく正則化を用いて, 異なる要素を分離し, 感情の識別におけるそれらの役割を調査し, さらに音楽的感情を変化させる要素を操作する新しいアプローチを提案する。
具体的には,新しいVQ-VAEモデルであるMusERを提案する。
MusERは正規化損失を組み込んで、音楽要素列と潜在変数列の特定次元の対応を強制し、離散列をアンタングする新しい解決策を提供する。
切り離された潜在ベクトルの利点を生かして、異なる意味を持つ潜在ベクトルに参加する複数の復号器を含む2段階の復号法が考案された。
潜在空間を可視化することにより、ミューサーは不連続で解釈可能な潜在空間を生じさせ、感情的な次元(すなわち覚醒とヴァレンス)に対する異なる要素の寄与についての洞察を得る。
実験の結果,MusERは客観的および主観的評価の両方で感情音楽を生成する最先端のモデルよりも優れていた。
さらに、要素移動を通して音楽を再配置し、感情の区別可能な要素を伝達することで音楽の感情を変えようとする。
関連論文リスト
- Emotion-Driven Melody Harmonization via Melodic Variation and Functional Representation [16.790582113573453]
感情駆動のメロディは、望ましい感情を伝えるために、1つのメロディのための多様なハーモニーを生成することを目的としている。
以前の研究では、異なるコードで同じメロディを調和させることで、リードシートの知覚的価値を変えることが困難であった。
本稿では,シンボリック音楽の新たな機能表現を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:05:12Z) - Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - Are Words Enough? On the semantic conditioning of affective music
generation [1.534667887016089]
このスコーピングレビューは、感情によって条件付けられた音楽生成の可能性を分析し、議論することを目的としている。
本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成において採用される2つの主要なパラダイムについて概観する。
音楽を通して感情を表現する言葉の限界とあいまいさを克服することは、創造産業に影響を及ぼす可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-11-07T00:19:09Z) - REMAST: Real-time Emotion-based Music Arrangement with Soft Transition [29.34094293561448]
感情的な介入媒体としての音楽は、音楽療法、ゲーム、映画などのシナリオに重要な応用がある。
感情のリアルタイム適合とスムーズな遷移を同時に達成するためのREMASTを提案する。
評価結果によると,REMASTは客観的および主観的指標において最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-05-14T00:09:48Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。