論文の概要: Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
- arxiv url: http://arxiv.org/abs/2409.17899v1
- Date: Thu, 26 Sep 2024 14:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:47:25.918993
- Title: Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
- Title(参考訳): 自己監督的表現による感情音声と音楽の音響的類似性の再考
- Authors: Yujia Sun, Zeyu Zhao, Korin Richmond, Yuanchao Li,
- Abstract要約: 音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。
本稿では,感情音声と音楽の音響的類似性を再考し,自己監督学習(SSL)モデルの階層的振る舞いの分析から始める。
最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
- 参考スコア(独自算出の注目度): 14.058054715262275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition from speech and music shares similarities due to their acoustic overlap, which has led to interest in transferring knowledge between these domains. However, the shared acoustic cues between speech and music, particularly those encoded by Self-Supervised Learning (SSL) models, remain largely unexplored, given the fact that SSL models for speech and music have rarely been applied in cross-domain research. In this work, we revisit the acoustic similarity between emotion speech and music, starting with an analysis of the layerwise behavior of SSL models for Speech Emotion Recognition (SER) and Music Emotion Recognition (MER). Furthermore, we perform cross-domain adaptation by comparing several approaches in a two-stage fine-tuning process, examining effective ways to utilize music for SER and speech for MER. Lastly, we explore the acoustic similarities between emotional speech and music using Frechet audio distance for individual emotions, uncovering the issue of emotion bias in both speech and music SSL models. Our findings reveal that while speech and music SSL models do capture shared acoustic features, their behaviors can vary depending on different emotions due to their training strategies and domain-specificities. Additionally, parameter-efficient fine-tuning can enhance SER and MER performance by leveraging knowledge from each other. This study provides new insights into the acoustic similarity between emotional speech and music, and highlights the potential for cross-domain generalization to improve SER and MER systems.
- Abstract(参考訳): 音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。
しかし、音声と音楽の共有された音響的手がかり、特に自己監督学習(SSL)モデルで符号化されたものは、音声と音楽のSSLモデルがクロスドメイン研究にはほとんど適用されていないという事実から、ほとんど探索されていない。
本研究では、感情音声と音楽の音響的類似性を再考し、音声感情認識(SER)と音楽感情認識(MER)のためのSSLモデルの階層的振る舞いの分析から始める。
さらに、2段階の微調整プロセスにおいて複数のアプローチを比較してドメイン間適応を行い、SERとMERの音声を効果的に活用する方法を検討する。
最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
以上の結果から,音声と音楽のSSLモデルは共有音響特性を捉えることができるが,訓練戦略やドメイン固有性により,その行動は異なる感情によって異なることが判明した。
さらに、パラメータ効率の良い微調整は、互いに知識を生かしてSERとMERのパフォーマンスを向上させることができる。
本研究は、感情音声と音楽の音響的類似性に関する新たな知見を提供し、SERとMERシステムを改善するためのクロスドメイン一般化の可能性を明らかにする。
関連論文リスト
- Rethinking Emotion Bias in Music via Frechet Audio Distance [11.89773040110695]
我々は、音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。
本稿では,Frechet Audio Distance(FAD)と並行して,多様なオーディオエンコーダを用いる。
論文 参考訳(メタデータ) (2024-09-23T20:59:15Z) - Joint Learning of Emotions in Music and Generalized Sounds [6.854732863866882]
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
論文 参考訳(メタデータ) (2024-08-04T12:19:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文 参考訳(メタデータ) (2023-06-30T09:21:48Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。