論文の概要: Are Words Enough? On the semantic conditioning of affective music
generation
- arxiv url: http://arxiv.org/abs/2311.03624v1
- Date: Tue, 7 Nov 2023 00:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:29:26.540557
- Title: Are Words Enough? On the semantic conditioning of affective music
generation
- Title(参考訳): 言葉は十分か?
感情的音楽生成のセマンティック・コンディショニングについて
- Authors: Jorge Forero, Gilberto Bernardes, M\'onica Mendes
- Abstract要約: このスコーピングレビューは、感情によって条件付けられた音楽生成の可能性を分析し、議論することを目的としている。
本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成において採用される2つの主要なパラダイムについて概観する。
音楽を通して感情を表現する言葉の限界とあいまいさを克服することは、創造産業に影響を及ぼす可能性があると結論付けている。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music has been commonly recognized as a means of expressing emotions. In this
sense, an intense debate emerges from the need to verbalize musical emotions.
This concern seems highly relevant today, considering the exponential growth of
natural language processing using deep learning models where it is possible to
prompt semantic propositions to generate music automatically. This scoping
review aims to analyze and discuss the possibilities of music generation
conditioned by emotions. To address this topic, we propose a historical
perspective that encompasses the different disciplines and methods contributing
to this topic. In detail, we review two main paradigms adopted in automatic
music generation: rules-based and machine-learning models. Of note are the deep
learning architectures that aim to generate high-fidelity music from textual
descriptions. These models raise fundamental questions about the expressivity
of music, including whether emotions can be represented with words or expressed
through them. We conclude that overcoming the limitation and ambiguity of
language to express emotions through music, some of the use of deep learning
with natural language has the potential to impact the creative industries by
providing powerful tools to prompt and generate new musical works.
- Abstract(参考訳): 音楽は一般に感情を表現する手段として認識されている。
この意味では、音楽的感情を言語化する必要性から激しい議論が生まれる。
この懸念は、音楽の自動生成を意味論的命題に促すことができる深層学習モデルを用いた自然言語処理の指数関数的成長を考えると、今日では非常に重要と思われる。
このスコーピングレビューは、感情によって条件づけられた音楽生成の可能性を分析し、議論することを目的としている。
この問題に対処するため,本稿では,このトピックに寄与する様々な規律や手法を包含する歴史的視点を提案する。
本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成における2つの主要なパラダイムについて述べる。
注目すべきは、テキスト記述から高忠実な音楽を生み出すことを目的としたディープラーニングアーキテクチャである。
これらのモデルは、感情を言葉で表現できるのか、あるいはそれらを通して表現できるのかなど、音楽の表現性に関する基本的な疑問を提起する。
音楽を通して感情を表現するための言語の制限と曖昧さを克服し、自然言語によるディープラーニングの利用は、新しい音楽作品のプロンプトと生成のための強力なツールを提供することで、創造的産業に影響を及ぼす可能性があると結論づける。
関連論文リスト
- Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - MusER: Musical Element-Based Regularization for Generating Symbolic
Music with Emotion [16.658813060879293]
本稿では,音楽的要素に基づく正則化を潜在空間に導入し,異なる要素をアンタングルする手法を提案する。
潜在空間を可視化することにより、 MusER は非絡み合いで解釈可能な潜在空間が得られると結論付ける。
実験の結果,MusERは感情音楽を生成する最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-16T03:50:13Z) - Emotion and Sentiment Guided Paraphrasing [3.5027291542274366]
感情の勾配に沿ってきめ細かな感情的言い回しを新たに導入する。
入力テキストとターゲットテキストを微粒な感情ラベルで拡張することにより、広く使われているパラフレーズデータセットを再構築する。
本研究では,条件付きテキスト生成のための事前学習言語モデルを活用することで,感情と感情を導出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T20:59:40Z) - REMAST: Real-time Emotion-based Music Arrangement with Soft Transition [30.214222004199442]
感情的な介入媒体としての音楽は、音楽療法、ゲーム、映画などのシナリオに重要な応用がある。
感情のリアルタイム適合とスムーズな遷移を同時に達成するためのREMASTを提案する。
評価結果によると,REMASTは客観的および主観的指標において最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-05-14T00:09:48Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Perspective-taking and Pragmatics for Generating Empathetic Responses
Focused on Emotion Causes [50.569762345799354]
i) 相手の感情が発話から引き起こされる原因となる単語を特定することと, (ii) 応答生成における特定の単語を反映することである。
社会的認知からインスピレーションを得て、生成的推定を用いて、感情が単語レベルのラベルのない発話から単語を推論する。
論文 参考訳(メタデータ) (2021-09-18T04:22:49Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。