論文の概要: SongDriver2: Real-time Emotion-based Music Arrangement with Soft
Transition
- arxiv url: http://arxiv.org/abs/2305.08029v1
- Date: Sun, 14 May 2023 00:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:14:41.934182
- Title: SongDriver2: Real-time Emotion-based Music Arrangement with Soft
Transition
- Title(参考訳): SongDriver2:ソフト移行によるリアルタイム感情ベースの音楽アレンジメント
- Authors: Zihao Wang, Le Ma, Chen Zhang, Bo Han, Yikai Wang, Xinyi Chen, HaoRong
Hong, Wenbo Liu, Xinda Wu, Kejun Zhang
- Abstract要約: SongDriver2は、リアルタイムなフィットとソフトな遷移を同時に達成し、生成された音楽のコヒーレンスを高める。
本稿では,まず,最後のタイムステップの音楽感情を認識し,それを現在のタイムステップのターゲット入力感情と融合させる。
4つの音楽理論は、ドメイン知識を活用して感情情報を強化し、半教師付き学習を用いて、手動データセットアノテーションによって導入された主観的バイアスを軽減する。
- 参考スコア(独自算出の注目度): 23.706346576606588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time emotion-based music arrangement, which aims to transform a given
music piece into another one that evokes specific emotional resonance with the
user in real-time, holds significant application value in various scenarios,
e.g., music therapy, video game soundtracks, and movie scores. However,
balancing emotion real-time fit with soft emotion transition is a challenge due
to the fine-grained and mutable nature of the target emotion. Existing studies
mainly focus on achieving emotion real-time fit, while the issue of soft
transition remains understudied, affecting the overall emotional coherence of
the music. In this paper, we propose SongDriver2 to address this balance.
Specifically, we first recognize the last timestep's music emotion and then
fuse it with the current timestep's target input emotion. The fused emotion
then serves as the guidance for SongDriver2 to generate the upcoming music
based on the input melody data. To adjust music similarity and emotion
real-time fit flexibly, we downsample the original melody and feed it into the
generation model. Furthermore, we design four music theory features to leverage
domain knowledge to enhance emotion information and employ semi-supervised
learning to mitigate the subjective bias introduced by manual dataset
annotation. According to the evaluation results, SongDriver2 surpasses the
state-of-the-art methods in both objective and subjective metrics. These
results demonstrate that SongDriver2 achieves real-time fit and soft
transitions simultaneously, enhancing the coherence of the generated music.
- Abstract(参考訳): リアルタイムの感情に基づく音楽アレンジメントは、特定の楽曲を別の曲に変換し、リアルタイムでユーザーと特定の感情共鳴を誘発することを目的としており、音楽療法、ビデオゲームのサウンドトラック、映画のスコアなど、様々なシナリオにおいて重要な応用価値を持っている。
しかし、ソフトな感情遷移とリアルタイムに適合する感情のバランスは、ターゲットの感情のきめ細かい性質と可変性のために困難である。
既存の研究は主に感情をリアルタイムに適合させることに焦点を当てているが、ソフト・トランジションの問題はまだ検討されており、音楽全体の感情的コヒーレンスに影響を与える。
本稿では,このバランスに対処するため,SongDriver2を提案する。
具体的には、まず最後のタイムステップの音楽感情を認識し、次に現在のタイムステップのターゲット入力感情と融合する。
そして、融合感情がsongdriver2のガイダンスとなり、入力メロディデータに基づいて今後の音楽を生成する。
音楽の類似性と感情のリアルタイム適合性を柔軟に調整するために、オリジナルメロディを分解し、生成モデルに入力する。
さらに、4つの音楽理論を設計し、ドメイン知識を活用して感情情報を強化し、半教師付き学習を用いて、手動データセットアノテーションによる主観的バイアスを軽減する。
評価結果によると、SongDriver2は客観的および主観的メトリクスの両方において最先端の手法を上回っている。
これらの結果は,SongDriver2がリアルタイムな適合性とソフトな遷移を同時に達成し,生成した音楽のコヒーレンスを高めることを実証している。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - MusER: Musical Element-Based Regularization for Generating Symbolic
Music with Emotion [16.658813060879293]
本稿では,音楽的要素に基づく正則化を潜在空間に導入し,異なる要素をアンタングルする手法を提案する。
潜在空間を可視化することにより、 MusER は非絡み合いで解釈可能な潜在空間が得られると結論付ける。
実験の結果,MusERは感情音楽を生成する最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-16T03:50:13Z) - Exploring the Emotional Landscape of Music: An Analysis of Valence
Trends and Genre Variations in Spotify Music Data [0.0]
本稿ではSpotifyの音楽データを用いた音楽感情と傾向の複雑な分析を行う。
回帰モデル、時間分析、気分遷移、ジャンル調査を応用し、音楽と感情の関係のパターンを明らかにする。
論文 参考訳(メタデータ) (2023-10-29T15:57:31Z) - EmoGen: Eliminating Subjective Bias in Emotional Music Generation [34.910412265225816]
EmoGenは感情と音楽の間の橋渡しとして感情関連音楽属性のセットを活用する感情音楽生成システムである。
主観的評価と客観的評価は,感情制御の精度と音楽品質において,EmoGenが従来の方法よりも優れていたことを示している。
論文 参考訳(メタデータ) (2023-07-03T05:54:29Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。