論文の概要: Label Uncertainty Modeling and Prediction for Speech Emotion Recognition
using t-Distributions
- arxiv url: http://arxiv.org/abs/2207.12135v1
- Date: Mon, 25 Jul 2022 12:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 16:04:28.368177
- Title: Label Uncertainty Modeling and Prediction for Speech Emotion Recognition
using t-Distributions
- Title(参考訳): t分布を用いた音声感情認識のためのラベル不確かさモデルと予測
- Authors: Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkmann
- Abstract要約: 本稿では,学生のt分布を用いたラベル分布のモデル化を提案する。
我々は、対応するKulback-Leibler分散に基づく損失関数を導出し、感情ラベルの分布を推定するための推定器を訓練する。
その結果,我々のt分布に基づくアプローチは,最先端の不確実性モデリングの結果を伴うガウス的アプローチよりも改善されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 15.16865739526702
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As different people perceive others' emotional expressions differently, their
annotation in terms of arousal and valence are per se subjective. To address
this, these emotion annotations are typically collected by multiple annotators
and averaged across annotators in order to obtain labels for arousal and
valence. However, besides the average, also the uncertainty of a label is of
interest, and should also be modeled and predicted for automatic emotion
recognition. In the literature, for simplicity, label uncertainty modeling is
commonly approached with a Gaussian assumption on the collected annotations.
However, as the number of annotators is typically rather small due to resource
constraints, we argue that the Gaussian approach is a rather crude assumption.
In contrast, in this work we propose to model the label distribution using a
Student's t-distribution which allows us to account for the number of
annotations available. With this model, we derive the corresponding
Kullback-Leibler divergence based loss function and use it to train an
estimator for the distribution of emotion labels, from which the mean and
uncertainty can be inferred. Through qualitative and quantitative analysis, we
show the benefits of the t-distribution over a Gaussian distribution. We
validate our proposed method on the AVEC'16 dataset. Results reveal that our
t-distribution based approach improves over the Gaussian approach with
state-of-the-art uncertainty modeling results in speech-based emotion
recognition, along with an optimal and even faster convergence.
- Abstract(参考訳): 異なる人々が他者の感情表現を異なる形で知覚するので、覚醒的・無礼的なアノテーションは主観的である。
これに対処するため、これらの感情アノテーションは通常、複数のアノテーションによって収集され、アノテータ間で平均化され、覚醒と評価のためのラベルを得る。
しかし,平均値以外にラベルの不確実性も重要であり,自動感情認識のためのモデル化や予測も行なわなければならない。
文献では、単純さのため、ラベルの不確実性モデリングは一般に、収集されたアノテーションに対するガウス的仮定でアプローチされる。
しかし,リソースの制約によりアノテーションの数が比較的少ないため,ガウス的アプローチはやや粗い仮定である。
対照的に、本研究では、利用可能なアノテーションの数を考慮できる学生のt分布を用いてラベル分布をモデル化することを提案する。
このモデルでは、対応するkullback-leiblerの発散に基づく損失関数を導出し、それを用いて感情ラベルの分布を推定し、平均と不確かさを推定する。
定性的かつ定量的な分析により,ガウス分布上のt分布の利点を示す。
提案手法をAVEC'16データセット上で検証する。
その結果、t分布に基づくアプローチは、最先端の不確実性モデリングによるガウス的アプローチよりも改善され、最適なコンバージェンスとさらに高速なコンバージェンスが得られた。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - End-to-End Label Uncertainty Modeling in Speech Emotion Recognition
using Bayesian Neural Networks and Label Distribution Learning [0.0]
本稿では,アノテーションの分布をトレーニングし,主観性に基づくラベルの不確かさを捕捉するエンド・ツー・エンドのベイズニューラルネットワークを提案する。
提案手法は, 音声の感情認識において, 最先端の不確実性モデリング結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:55:43Z) - COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for
Uncertainty-Aware Multimodal Emotion Recognition [14.963637194500029]
本稿では、感情予測に対するモダリティワイドな不確実性を定量化する不確実性認識型オーディオ視覚融合手法を提案する。
音声視覚潜在分布の分散ベクトルに正規ランク付け制約を課す。
AVEC 2019 CESとIEMOCAPの2つの感情認識コーパスについて評価したところ、音声視覚的感情認識は、よく校正され、よくランク付けされた潜伏不確実性対策の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2022-06-12T20:25:21Z) - Label Distribution Amendment with Emotional Semantic Correlations for
Facial Expression Recognition [69.18918567657757]
意味空間における表現間の相関を利用して,各顔画像のラベル分布を補正する手法を提案する。
各画像のセマンティックグラフとタスククラス関連グラフを比較することにより、そのラベル分布の信頼性を評価する。
実験により,提案手法は最先端手法と比較した場合よりも有効であることが示された。
論文 参考訳(メタデータ) (2021-07-23T07:46:14Z) - Path Integrals for the Attribution of Model Uncertainties [0.18899300124593643]
本稿では,特徴ベクトルと反事実ベクトルを連結する分布内曲線に依存する新しいアルゴリズムを提案する。
我々は,様々な解像度で画像データセットをベンチマークし,解釈可能性を大幅に単純化することを示す。
論文 参考訳(メタデータ) (2021-07-19T11:07:34Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。