論文の概要: Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2210.16642v1
- Date: Sat, 29 Oct 2022 16:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:30:47.825052
- Title: Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition
- Title(参考訳): 音声認識のための離散・連続感情ラベルの統合
- Authors: Roshan Sharma, Hira Dhamyal, Bhiksha Raj and Rita Singh
- Abstract要約: 音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
- 参考スコア(独自算出の注目度): 28.881092401807894
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Traditionally, in paralinguistic analysis for emotion detection from speech,
emotions have been identified with discrete or dimensional (continuous-valued)
labels. Accordingly, models that have been proposed for emotion detection use
one or the other of these label types. However, psychologists like Russell and
Plutchik have proposed theories and models that unite these views, maintaining
that these representations have shared and complementary information. This
paper is an attempt to validate these viewpoints computationally. To this end,
we propose a model to jointly predict continuous and discrete emotional
attributes and show how the relationship between these can be utilized to
improve the robustness and performance of emotion recognition tasks. Our
approach comprises multi-task and hierarchical multi-task learning frameworks
that jointly model the relationships between continuous-valued and discrete
emotion labels. Experimental results on two widely used datasets (IEMOCAP and
MSPPodcast) for speech-based emotion recognition show that our model results in
statistically significant improvements in performance over strong baselines
with non-unified approaches. We also demonstrate that using one type of label
(discrete or continuous-valued) for training improves recognition performance
in tasks that use the other type of label. Experimental results and reasoning
for this approach (called the mismatched training approach) are also presented.
- Abstract(参考訳): 伝統的に、音声からの感情検出のためのパラ言語分析において、感情は離散的または次元的(連続的な評価)ラベルと同一視されてきた。
したがって、感情検出のために提案されたモデルは、これらのラベルタイプのいずれかを使用する。
しかし、ラッセルやプルチックのような心理学者はこれらの見解を統一する理論とモデルを提案し、これらの表現が共有され補完的な情報を持っていると主張した。
本稿は,これらの視点を計算的に検証する試みである。
そこで本研究では,連続感情属性と離散感情属性を共同で予測するモデルを提案し,それらの関係が感情認識タスクのロバスト性や性能向上にどのように役立つかを示す。
本手法は,連続的評価と離散的感情ラベルの関係を共同でモデル化するマルチタスクおよび階層型マルチタスク学習フレームワークからなる。
音声に基づく感情認識に広く使われている2つのデータセット(iemocapとmsppodcast)の実験結果から,非統一的アプローチによる強力なベースラインに対する統計的に有意なパフォーマンス改善が得られた。
また,一方のラベル(離散的あるいは連続的)をトレーニングに用いることで,他方のラベルを使用するタスクの認識性能が向上することを示す。
このアプローチの実験的結果と推論(ミスマッチトレーニングアプローチと呼ばれる)も提示される。
関連論文リスト
- Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Estimating the Uncertainty in Emotion Class Labels with
Utterance-Specific Dirichlet Priors [24.365876333182207]
本稿では,発話ごとのディリクレの事前分布に基づく新たな訓練損失を提案する。
ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。
広く使われているIEMOCAPデータセットによる実験は、2分岐構造が最先端の分類結果を達成することを示した。
論文 参考訳(メタデータ) (2022-03-08T23:30:01Z) - Contrast and Generation Make BART a Good Dialogue Emotion Recognizer [38.18867570050835]
対話型感情認識において、話者依存との長期的文脈的感情関係が重要な役割を担っている。
教師付きコントラスト学習を用いて、異なる感情を相互に排他的に区別し、類似した感情をよりよく識別する。
我々は、文脈情報を扱うモデルの能力を高めるために補助応答生成タスクを利用する。
論文 参考訳(メタデータ) (2021-12-21T13:38:00Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - End-to-end label uncertainty modeling for speech emotion recognition
using Bayesian neural networks [16.708069984516964]
感情に固有の主観性を捉えるために,エンド・ツー・エンドのベイズニューラルネットワークアーキテクチャを導入する。
トレーニングにおいて、ネットワークは、主観的感情アノテーションに関連する本質的な不確実性を捉えるために、重みの分布を学習する。
AVEC'16感情認識データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-07T09:34:28Z) - Label Distribution Amendment with Emotional Semantic Correlations for
Facial Expression Recognition [69.18918567657757]
意味空間における表現間の相関を利用して,各顔画像のラベル分布を補正する手法を提案する。
各画像のセマンティックグラフとタスククラス関連グラフを比較することにより、そのラベル分布の信頼性を評価する。
実験により,提案手法は最先端手法と比較した場合よりも有効であることが示された。
論文 参考訳(メタデータ) (2021-07-23T07:46:14Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - EmoGraph: Capturing Emotion Correlations using Graph Networks [71.53159402053392]
グラフネットワークを通じて異なる感情間の依存関係をキャプチャするEmoGraphを提案する。
EmoGraphは特にマクロF1において、強いベースラインを上回ります。
キャプチャーされた感情相関は、シングルラベルの分類作業にも有用であることを示す実験である。
論文 参考訳(メタデータ) (2020-08-21T08:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。