論文の概要: Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2210.16642v1
- Date: Sat, 29 Oct 2022 16:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:30:47.825052
- Title: Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition
- Title(参考訳): 音声認識のための離散・連続感情ラベルの統合
- Authors: Roshan Sharma, Hira Dhamyal, Bhiksha Raj and Rita Singh
- Abstract要約: 音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
- 参考スコア(独自算出の注目度): 28.881092401807894
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Traditionally, in paralinguistic analysis for emotion detection from speech,
emotions have been identified with discrete or dimensional (continuous-valued)
labels. Accordingly, models that have been proposed for emotion detection use
one or the other of these label types. However, psychologists like Russell and
Plutchik have proposed theories and models that unite these views, maintaining
that these representations have shared and complementary information. This
paper is an attempt to validate these viewpoints computationally. To this end,
we propose a model to jointly predict continuous and discrete emotional
attributes and show how the relationship between these can be utilized to
improve the robustness and performance of emotion recognition tasks. Our
approach comprises multi-task and hierarchical multi-task learning frameworks
that jointly model the relationships between continuous-valued and discrete
emotion labels. Experimental results on two widely used datasets (IEMOCAP and
MSPPodcast) for speech-based emotion recognition show that our model results in
statistically significant improvements in performance over strong baselines
with non-unified approaches. We also demonstrate that using one type of label
(discrete or continuous-valued) for training improves recognition performance
in tasks that use the other type of label. Experimental results and reasoning
for this approach (called the mismatched training approach) are also presented.
- Abstract(参考訳): 伝統的に、音声からの感情検出のためのパラ言語分析において、感情は離散的または次元的(連続的な評価)ラベルと同一視されてきた。
したがって、感情検出のために提案されたモデルは、これらのラベルタイプのいずれかを使用する。
しかし、ラッセルやプルチックのような心理学者はこれらの見解を統一する理論とモデルを提案し、これらの表現が共有され補完的な情報を持っていると主張した。
本稿は,これらの視点を計算的に検証する試みである。
そこで本研究では,連続感情属性と離散感情属性を共同で予測するモデルを提案し,それらの関係が感情認識タスクのロバスト性や性能向上にどのように役立つかを示す。
本手法は,連続的評価と離散的感情ラベルの関係を共同でモデル化するマルチタスクおよび階層型マルチタスク学習フレームワークからなる。
音声に基づく感情認識に広く使われている2つのデータセット(iemocapとmsppodcast)の実験結果から,非統一的アプローチによる強力なベースラインに対する統計的に有意なパフォーマンス改善が得られた。
また,一方のラベル(離散的あるいは連続的)をトレーニングに用いることで,他方のラベルを使用するタスクの認識性能が向上することを示す。
このアプローチの実験的結果と推論(ミスマッチトレーニングアプローチと呼ばれる)も提示される。
関連論文リスト
- Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。
得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。
詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文 参考訳(メタデータ) (2024-06-04T12:17:16Z) - CAGE: Circumplex Affect Guided Expression Inference [9.108319009019912]
本稿では,2つの共通データセット (AffectNet と EMOTIC) に対して,感情の概略モデルの構成要素を具備した詳細な分析を行った。
本稿では,軽量アプリケーションに適した表情予測モデルを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:30:17Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Estimating the Uncertainty in Emotion Class Labels with
Utterance-Specific Dirichlet Priors [24.365876333182207]
本稿では,発話ごとのディリクレの事前分布に基づく新たな訓練損失を提案する。
ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。
広く使われているIEMOCAPデータセットによる実験は、2分岐構造が最先端の分類結果を達成することを示した。
論文 参考訳(メタデータ) (2022-03-08T23:30:01Z) - Contrast and Generation Make BART a Good Dialogue Emotion Recognizer [38.18867570050835]
対話型感情認識において、話者依存との長期的文脈的感情関係が重要な役割を担っている。
教師付きコントラスト学習を用いて、異なる感情を相互に排他的に区別し、類似した感情をよりよく識別する。
我々は、文脈情報を扱うモデルの能力を高めるために補助応答生成タスクを利用する。
論文 参考訳(メタデータ) (2021-12-21T13:38:00Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Label Distribution Amendment with Emotional Semantic Correlations for
Facial Expression Recognition [69.18918567657757]
意味空間における表現間の相関を利用して,各顔画像のラベル分布を補正する手法を提案する。
各画像のセマンティックグラフとタスククラス関連グラフを比較することにより、そのラベル分布の信頼性を評価する。
実験により,提案手法は最先端手法と比較した場合よりも有効であることが示された。
論文 参考訳(メタデータ) (2021-07-23T07:46:14Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - EmoGraph: Capturing Emotion Correlations using Graph Networks [71.53159402053392]
グラフネットワークを通じて異なる感情間の依存関係をキャプチャするEmoGraphを提案する。
EmoGraphは特にマクロF1において、強いベースラインを上回ります。
キャプチャーされた感情相関は、シングルラベルの分類作業にも有用であることを示す実験である。
論文 参考訳(メタデータ) (2020-08-21T08:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。