論文の概要: Emotion-Disentangled Embedding Alignment for Noise-Robust and Cross-Corpus Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2510.09072v1
- Date: Fri, 10 Oct 2025 07:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.927211
- Title: Emotion-Disentangled Embedding Alignment for Noise-Robust and Cross-Corpus Speech Emotion Recognition
- Title(参考訳): ノイズ・ロバスト・クロスコーパス音声感情認識のための感情不整形埋め込みアライメント
- Authors: Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu,
- Abstract要約: 本稿では,音声感情認識モデルの堅牢性向上と一般化のための2段階のアプローチを提案する。
課題条件下での性能向上は,提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 7.243987016933212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectiveness of speech emotion recognition in real-world scenarios is often hindered by noisy environments and variability across datasets. This paper introduces a two-step approach to enhance the robustness and generalization of speech emotion recognition models through improved representation learning. First, our model employs EDRL (Emotion-Disentangled Representation Learning) to extract class-specific discriminative features while preserving shared similarities across emotion categories. Next, MEA (Multiblock Embedding Alignment) refines these representations by projecting them into a joint discriminative latent subspace that maximizes covariance with the original speech input. The learned EDRL-MEA embeddings are subsequently used to train an emotion classifier using clean samples from publicly available datasets, and are evaluated on unseen noisy and cross-corpus speech samples. Improved performance under these challenging conditions demonstrates the effectiveness of the proposed method.
- Abstract(参考訳): 実世界のシナリオにおける音声感情認識の有効性は、しばしばノイズの多い環境やデータセット間の変動によって妨げられる。
本稿では、表現学習の改善を通じて、音声感情認識モデルの堅牢性と一般化を強化するための2段階のアプローチを提案する。
まず、EDRL(Emotion-Disentangled Representation Learning)を用いて、感情カテゴリー間での類似性を保ちながら、クラス固有の識別特徴を抽出する。
次に、MEA(Multiblock Embedding Alignment)は、これらの表現を、元の音声入力との共分散を最大化する共同識別潜在部分空間に投影することで洗練する。
学習したEDRL-MEA埋め込みは、その後、公開されているデータセットからクリーンなサンプルを使用して感情分類器を訓練するために使用され、目に見えないノイズとクロスコーパスの音声サンプルで評価される。
これらの挑戦条件下での性能向上は,提案手法の有効性を示す。
関連論文リスト
- EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast [24.24520233247336]
EmotionRankCLAPは、感情音声の次元特性と自然言語のプロンプトを用いて、きめ細かな感情変化を協調的にキャプチャする教師付きコントラスト学習手法である。
EmotionRankCLAPは、モーダル横断検索タスクを通じて測定された感情の規則性をモデル化する既存の感情-CLAPメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-29T17:56:55Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T16:12:31Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。