論文の概要: Investigating salient representations and label Variance in Dimensional
Speech Emotion Analysis
- arxiv url: http://arxiv.org/abs/2312.16180v1
- Date: Sun, 17 Dec 2023 04:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:00:01.383155
- Title: Investigating salient representations and label Variance in Dimensional
Speech Emotion Analysis
- Title(参考訳): 次元音声感情分析におけるサルエント表現とラベル分散の検討
- Authors: Vikramjit Mitra, Jingping Nie, Erdrin Azemi
- Abstract要約: 事前訓練された表現空間内には、感情推定の性能を犠牲にすることなく、下流モデルの複雑さを低減できる低次元部分空間が存在することを示す。
音響的劣化に対する感情モデルのロバスト性を比較し、縮小次元表現は、実次元表現と同様の性能を維持できるが、実次元の感情性能は顕著に低下しないことを示した。
- 参考スコア(独自算出の注目度): 3.692503946335681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations derived from models such as BERT (Bidirectional Encoder
Representations from Transformers) and HuBERT (Hidden units BERT), have helped
to achieve state-of-the-art performance in dimensional speech emotion
recognition. Despite their large dimensionality, and even though these
representations are not tailored for emotion recognition tasks, they are
frequently used to train large speech emotion models with high memory and
computational costs. In this work, we show that there exist lower-dimensional
subspaces within the these pre-trained representational spaces that offer a
reduction in downstream model complexity without sacrificing performance on
emotion estimation. In addition, we model label uncertainty in the form of
grader opinion variance, and demonstrate that such information can improve the
models generalization capacity and robustness. Finally, we compare the
robustness of the emotion models against acoustic degradations and observed
that the reduced dimensional representations were able to retain the
performance similar to the full-dimensional representations without significant
regression in dimensional emotion performance.
- Abstract(参考訳): BERT (Bidirectional Encoder Representations from Transformers) や HuBERT (Hidden Unit BERT) といったモデルから派生した表現は、三次元音声の感情認識において最先端のパフォーマンスを達成するのに役立っている。
これらの表現は感情認識のタスクには適していないが、大きな音声感情モデルを高いメモリと計算コストで訓練するのに頻繁に使用される。
本研究では, 感情推定の性能を犠牲にすることなく, 下流モデルの複雑性を低減できる, 事前学習された表現空間内に低次元部分空間が存在することを示す。
さらに,ラベルの不確かさをグレーダーの意見分散の形でモデル化し,その情報によって一般化能力と頑健性が向上することを示す。
最後に, 音響劣化に対する感情モデルのロバスト性を比較し, 縮小次元表現は, 実次元表現と同等の性能を保ちながら, 次元感情性能を著しく低下させることなく維持できることを示した。
関連論文リスト
- Mechanistic Interpretability of Emotion Inference in Large Language Models [16.42503362001602]
感情表現は大規模言語モデルにおいて特定の領域に機能的に局所化されていることを示す。
我々は,環境刺激の評価から感情が出現することを示すための認知的評価理論を導いた。
この研究は、因果的に介入し、感情的なテキスト生成を正確に形作る新しい方法を強調している。
論文 参考訳(メタデータ) (2025-02-08T08:11:37Z) - ASEM: Enhancing Empathy in Chatbot through Attention-based Sentiment and
Emotion Modeling [0.0]
本稿では,ユーザの発話の感情状態について,専門家の混在,複数エンコーダを用いた新たなソリューションを提案する。
本稿では,オープンドメインチャットボットの感情分析に基づいて感情分析を行うASEMというエンド・ツー・エンドのモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-25T20:36:51Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。