論文の概要: End-to-End Label Uncertainty Modeling in Speech Emotion Recognition
using Bayesian Neural Networks and Label Distribution Learning
- arxiv url: http://arxiv.org/abs/2209.15449v1
- Date: Fri, 30 Sep 2022 12:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:44:12.059865
- Title: End-to-End Label Uncertainty Modeling in Speech Emotion Recognition
using Bayesian Neural Networks and Label Distribution Learning
- Title(参考訳): ベイジアンニューラルネットワークとラベル分布学習を用いた音声認識における終端ラベルの不確かさのモデル化
- Authors: Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkman
- Abstract要約: 本稿では,ラベルの分布を学習し,主観性に基づくラベルの不確かさを捉えることができるエンド・ツー・エンドベイズニューラルネットワークを提案する。
提案手法は, 音声の感情認識において, 最先端の不確実性モデリング結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To train machine learning algorithms to predict emotional expressions in
terms of arousal and valence, annotated datasets are needed. However, as
different people perceive others' emotional expressions differently, their
annotations are per se subjective. For this, annotations are typically
collected from multiple annotators and averaged to obtain ground-truth labels.
However, when exclusively trained on this averaged ground-truth, the trained
network is agnostic to the inherent subjectivity in emotional expressions. In
this work, we therefore propose an end-to-end Bayesian neural network capable
of being trained on a distribution of labels to also capture the
subjectivity-based label uncertainty. Instead of a Gaussian, we model the label
distribution using Student's t-distribution, which also accounts for the number
of annotations. We derive the corresponding Kullback-Leibler divergence loss
and use it to train an estimator for the distribution of labels, from which the
mean and uncertainty can be inferred. We validate the proposed method using two
in-the-wild datasets. We show that the proposed t-distribution based approach
achieves state-of-the-art uncertainty modeling results in speech emotion
recognition, and also consistent results in cross-corpora evaluations.
Furthermore, analyses reveal that the advantage of a t-distribution over a
Gaussian grows with increasing inter-annotator correlation and a decreasing
number of annotators.
- Abstract(参考訳): 覚醒とヴァレンスの観点から感情表現を予測するために機械学習アルゴリズムをトレーニングするには、注釈付きデータセットが必要である。
しかし、異なる人々が他者の感情表現を異なる形で知覚するので、その注釈は主観的である。
このため、アノテーションは通常複数のアノテーションから収集され、接地木ラベルを得るために平均化される。
しかし、この平均的な基盤上でのみ訓練された場合、訓練されたネットワークは感情表現に固有の主観性に無関係である。
そこで本研究では,ラベルの分布を訓練し,主観性に基づくラベルの不確かさを捉えることができるエンドツーエンドベイズ型ニューラルネットワークを提案する。
ガウス型ではなく、アノテーションの数も考慮した学生のt分布を用いてラベル分布をモデル化する。
我々は、対応するKullback-Leibler分散損失を導出し、それを用いて、平均と不確実性を推定できるラベル分布の推定器を訓練する。
提案手法は,2つのアプリ内データセットを用いて検証する。
提案手法は,音声感情認識において最先端の不確実性モデリング結果を達成し,企業間評価においても一貫した結果が得られることを示す。
さらに, ガウス群に対するt分布の利点は, アノテーション間相関の増大とアノテータ数の減少とともに増大することが明らかとなった。
関連論文リスト
- Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Regressor-Segmenter Mutual Prompt Learning for Crowd Counting [70.49246560246736]
本稿では,アノテーションの差によるバイアスや不正確性を解決するために,相互学習(mPrompt)を提案する。
実験により、mPromptは平均誤差(MAE)を著しく減少させることが示された。
論文 参考訳(メタデータ) (2023-12-04T07:53:59Z) - Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization [53.24606510691877]
本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2022-12-19T12:40:18Z) - Label Uncertainty Modeling and Prediction for Speech Emotion Recognition
using t-Distributions [15.16865739526702]
本稿では,学生のt分布を用いたラベル分布のモデル化を提案する。
我々は、対応するKulback-Leibler分散に基づく損失関数を導出し、感情ラベルの分布を推定するための推定器を訓練する。
その結果,我々のt分布に基づくアプローチは,最先端の不確実性モデリングの結果を伴うガウス的アプローチよりも改善されていることが明らかとなった。
論文 参考訳(メタデータ) (2022-07-25T12:38:20Z) - Deconfounding to Explanation Evaluation in Graph Neural Networks [136.73451468551656]
我々は、全グラフと部分グラフの間に分布シフトが存在し、分布外問題を引き起こすと論じる。
本稿では,モデル予測に対する説明文の因果効果を評価するために,Decon founded Subgraph Evaluation (DSE)を提案する。
論文 参考訳(メタデータ) (2022-01-21T18:05:00Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - End-to-end label uncertainty modeling for speech emotion recognition
using Bayesian neural networks [16.708069984516964]
感情に固有の主観性を捉えるために,エンド・ツー・エンドのベイズニューラルネットワークアーキテクチャを導入する。
トレーニングにおいて、ネットワークは、主観的感情アノテーションに関連する本質的な不確実性を捉えるために、重みの分布を学習する。
AVEC'16感情認識データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-07T09:34:28Z) - Learning from Crowds with Sparse and Imbalanced Annotations [29.596070201105274]
クラウドソーシングは、非専門家の群衆を頼りにすることで、効率的なラベリングソリューションとして自らを確立した。
一般的には、各インスタンスを複数のワーカに配布するが、各ワーカはデータのサブセットのみをアノテートする。
本稿では、自信ある擬似アノテーションを段階的に追加し、アノテーション分布を再バランスさせることにより、自己学習に基づく1つのアプローチ、Self-Crowdを提案する。
論文 参考訳(メタデータ) (2021-07-11T13:06:20Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。