論文の概要: End-to-end label uncertainty modeling for speech emotion recognition
using Bayesian neural networks
- arxiv url: http://arxiv.org/abs/2110.03299v1
- Date: Thu, 7 Oct 2021 09:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:21:13.576682
- Title: End-to-end label uncertainty modeling for speech emotion recognition
using Bayesian neural networks
- Title(参考訳): ベイジアンニューラルネットワークを用いた音声感情認識のための終末ラベル不確実性モデル
- Authors: Navin Raj Prabhu, Guillaume Carbajal, Nale Lehmann-Willenbrock and
Timo Gerkmann
- Abstract要約: 感情に固有の主観性を捉えるために,エンド・ツー・エンドのベイズニューラルネットワークアーキテクチャを導入する。
トレーニングにおいて、ネットワークは、主観的感情アノテーションに関連する本質的な不確実性を捉えるために、重みの分布を学習する。
AVEC'16感情認識データセットに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 16.708069984516964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotions are subjective constructs. Recent end-to-end speech emotion
recognition systems are typically agnostic to the subjective nature of
emotions, despite their state-of-the-art performances. In this work, we
introduce an end-to-end Bayesian neural network architecture to capture the
inherent subjectivity in emotions. To the best of our knowledge, this work is
the first to use Bayesian neural networks for speech emotion recognition. At
training, the network learns a distribution of weights to capture the inherent
uncertainty related to subjective emotion annotations. For this, we introduce a
loss term which enables the model to be explicitly trained on a distribution of
emotion annotations, rather than training them exclusively on mean or
gold-standard labels. We evaluate the proposed approach on the AVEC'16 emotion
recognition dataset. Qualitative and quantitative analysis of the results
reveal that the proposed model can aptly capture the distribution of subjective
emotion annotations with a compromise between mean and standard deviation
estimations.
- Abstract(参考訳): 感情は主観的な構成である。
最近のエンドツーエンドの音声感情認識システムは、最先端のパフォーマンスにもかかわらず、感情の主観的な性質に非依存である。
本研究では、感情に固有の主観性を捉えるために、エンドツーエンドのベイズニューラルネットワークアーキテクチャを導入する。
私たちの知る限りでは、この研究はベイズ型ニューラルネットワークを音声感情認識に初めて使用するものだ。
トレーニング中、ネットワークは重みの分布を学習し、主観的感情のアノテーションに関連する固有の不確かさを捉える。
そこで本研究では,平均値やゴールド標準値のラベルのみをトレーニングするのではなく,感情アノテーションの分布に基づいてモデルを明示的にトレーニングできる損失項を提案する。
AVEC'16感情認識データセットに対する提案手法の評価を行った。
結果の質的・定量的解析により,提案モデルが主観的感情アノテーションの分布を,平均偏差と標準偏差推定の妥協により適切に把握できることが判明した。
関連論文リスト
- Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T16:12:31Z) - End-to-End Label Uncertainty Modeling in Speech Emotion Recognition
using Bayesian Neural Networks and Label Distribution Learning [0.0]
本稿では,アノテーションの分布をトレーニングし,主観性に基づくラベルの不確かさを捕捉するエンド・ツー・エンドのベイズニューラルネットワークを提案する。
提案手法は, 音声の感情認識において, 最先端の不確実性モデリング結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:55:43Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Estimating the Uncertainty in Emotion Class Labels with
Utterance-Specific Dirichlet Priors [24.365876333182207]
本稿では,発話ごとのディリクレの事前分布に基づく新たな訓練損失を提案する。
ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。
広く使われているIEMOCAPデータセットによる実験は、2分岐構造が最先端の分類結果を達成することを示した。
論文 参考訳(メタデータ) (2022-03-08T23:30:01Z) - Interpretability for Multimodal Emotion Recognition using Concept
Activation Vectors [0.0]
概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。
Emotion AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。
次に,2方向コンテキストLSTM(BC-LSTM)ネットワークの複数の層において,提案する概念の影響を評価する。
論文 参考訳(メタデータ) (2022-02-02T15:02:42Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。