論文の概要: Speaker Style-Aware Phoneme Anchoring for Improved Cross-Lingual Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.20373v1
- Date: Fri, 19 Sep 2025 21:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.472273
- Title: Speaker Style-Aware Phoneme Anchoring for Improved Cross-Lingual Speech Emotion Recognition
- Title(参考訳): 言語間音声認識のための話者スタイル対応音素アンカリング
- Authors: Shreya G. Upadhyay, Carlos Busso, Chi-Chun Lee,
- Abstract要約: 言語間音声の感情認識は、音韻変動と話者固有の表現スタイルの違いにより難しい課題である。
本研究では,感情表現を音素レベルと話者レベルで整列させる話者スタイルの音素アンカーフレームワークを提案する。
本手法は,グラフに基づくクラスタリングにより,感情特異的な話者コミュニティを構築し,話者の特徴を抽出する。
- 参考スコア(独自算出の注目度): 58.74986434825755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual speech emotion recognition (SER) remains a challenging task due to differences in phonetic variability and speaker-specific expressive styles across languages. Effectively capturing emotion under such diverse conditions requires a framework that can align the externalization of emotions across different speakers and languages. To address this problem, we propose a speaker-style aware phoneme anchoring framework that aligns emotional expression at the phonetic and speaker levels. Our method builds emotion-specific speaker communities via graph-based clustering to capture shared speaker traits. Using these groups, we apply dual-space anchoring in speaker and phonetic spaces to enable better emotion transfer across languages. Evaluations on the MSP-Podcast (English) and BIIC-Podcast (Taiwanese Mandarin) corpora demonstrate improved generalization over competitive baselines and provide valuable insights into the commonalities in cross-lingual emotion representation.
- Abstract(参考訳): 言語間音声感情認識(SER)は、言語間での音声的変動と話者特異的表現スタイルの違いにより、依然として困難な課題である。
このような多様な条件下で感情を効果的にキャプチャするには、異なる話者や言語間で感情の外部化を調整できるフレームワークが必要である。
この問題に対処するために,音素レベルと話者レベルの感情表現を一致させる話者スタイルの音素アンカーフレームワークを提案する。
本手法は,グラフに基づくクラスタリングにより,感情特異的な話者コミュニティを構築し,話者の特徴を抽出する。
これらのグループを用いて、言語間の感情伝達を改善するために、話者空間と音声空間に二重空間アンカーを適用する。
MSP-Podcast (英語) とBIIC-Podcast (台湾・マンダリン) コーパスの評価は、競争ベースラインに対する一般化の改善を示し、言語間感情表現における共通点に関する貴重な洞察を提供する。
関連論文リスト
- Marco-Voice Technical Report [35.01600797874603]
この研究の目的は、高度に表現力があり、制御可能で、自然な音声生成を実現するための長年にわたる課題に対処することである。
提案手法では, 効果的な話者・感情の絡み合い機構を導入し, コントラスト学習を行う。
包括的学習と評価を支援するため,高品質な感情音声データセットCSEMOTIONSを構築した。
論文 参考訳(メタデータ) (2025-08-04T04:08:22Z) - Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages [31.15696076055884]
コントラスト学習を利用して、多言語音声の特徴を洗練し、大きな言語モデルを拡張することを提案する。
具体的には、感情空間における音声信号と言語的特徴を整合させるために、2段階の新たな訓練フレームワークを用いる。
この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。
論文 参考訳(メタデータ) (2025-03-25T05:58:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。