論文の概要: EmoGen: Eliminating Subjective Bias in Emotional Music Generation
- arxiv url: http://arxiv.org/abs/2307.01229v1
- Date: Mon, 3 Jul 2023 05:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 19:34:36.231601
- Title: EmoGen: Eliminating Subjective Bias in Emotional Music Generation
- Title(参考訳): EmoGen:感情音楽生成における主観バイアスの除去
- Authors: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang,
Jiang Bian
- Abstract要約: EmoGenは感情と音楽の間の橋渡しとして感情関連音楽属性のセットを活用する感情音楽生成システムである。
主観的評価と客観的評価は,感情制御の精度と音楽品質において,EmoGenが従来の方法よりも優れていたことを示している。
- 参考スコア(独自算出の注目度): 34.910412265225816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.
- Abstract(参考訳): 音楽は感情を伝えるために使用され、したがって感情音楽を生成することは音楽の自動生成において重要である。
感情音楽生成に関する以前の研究では、注釈付き感情ラベルを制御信号として直接使用しており、主観的バイアスに苦しめられている: 異なる人は同じ音楽で異なる感情を注釈し、ある人は異なる状況下で異なる感情を感じる。
したがって、感情ラベルをエンドツーエンドの方法で音楽シーケンスに直接マッピングすることで、学習プロセスが混乱し、一般的な感情でモデルが音楽を生成するのを妨げる。
本稿では,感情関連音楽属性の集合を感情と音楽の橋渡しとして利用する感情音楽生成システムであるemogenを提案し,その生成を教師付きクラスタリングによる感情から属性へのマッピングと,自己教師付き学習による属性から音楽への生成の2段階に分けた。
第1段階では、クラスタリング中心の周りの属性値はこれらのサンプルの一般的な感情を表すため、感情ラベルの主観的バイアスの影響を排除し、第2段階では、生成は感情ラベルから完全に切り離され、従って主観的バイアスから解放される。
主観的評価と客観的評価は,感情制御の精度と音楽品質において,EmoGenが従来の方法よりも優れており,感情音楽の生成における優位性を示している。
EmoGenが生成した音楽サンプルは以下のリンクから入手できる:https://ai-muzic.github.io/emogen/, コードはこのリンクで入手できる。
関連論文リスト
- Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - MusER: Musical Element-Based Regularization for Generating Symbolic
Music with Emotion [16.658813060879293]
本稿では,音楽的要素に基づく正則化を潜在空間に導入し,異なる要素をアンタングルする手法を提案する。
潜在空間を可視化することにより、 MusER は非絡み合いで解釈可能な潜在空間が得られると結論付ける。
実験の結果,MusERは感情音楽を生成する最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-16T03:50:13Z) - Are Words Enough? On the semantic conditioning of affective music
generation [1.534667887016089]
このスコーピングレビューは、感情によって条件付けられた音楽生成の可能性を分析し、議論することを目的としている。
本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成において採用される2つの主要なパラダイムについて概観する。
音楽を通して感情を表現する言葉の限界とあいまいさを克服することは、創造産業に影響を及ぼす可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-11-07T00:19:09Z) - REMAST: Real-time Emotion-based Music Arrangement with Soft Transition [29.34094293561448]
感情的な介入媒体としての音楽は、音楽療法、ゲーム、映画などのシナリオに重要な応用がある。
感情のリアルタイム適合とスムーズな遷移を同時に達成するためのREMASTを提案する。
評価結果によると,REMASTは客観的および主観的指標において最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-05-14T00:09:48Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - MIME: MIMicking Emotions for Empathetic Response Generation [82.57304533143756]
共感応答生成への現在のアプローチは、入力テキストで表現された感情の集合を平らな構造として見る。
共感反応は, 肯定的, 否定的, 内容に応じて, ユーザの感情を様々な程度に模倣することが多い。
論文 参考訳(メタデータ) (2020-10-04T00:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。