論文の概要: Learning Robust Self-attention Features for Speech Emotion Recognition
with Label-adaptive Mixup
- arxiv url: http://arxiv.org/abs/2305.06273v1
- Date: Sun, 7 May 2023 15:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:26:17.180240
- Title: Learning Robust Self-attention Features for Speech Emotion Recognition
with Label-adaptive Mixup
- Title(参考訳): ラベル適応混合を用いた音声認識におけるロバストな自己注意特徴の学習
- Authors: Lei Kang, Lichao Zhang, Dazhi Jiang
- Abstract要約: 音声感情認識(英: Speech Emotion Recognition, SER)とは、人間の感情を機械との自然な会話シナリオで認識することである。
本稿では,ラベル適応ミキサアップとセンターロスを併用した自己注意型手法を提案する。
- 参考スコア(独自算出の注目度): 3.6098822924463474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech Emotion Recognition (SER) is to recognize human emotions in a natural
verbal interaction scenario with machines, which is considered as a challenging
problem due to the ambiguous human emotions. Despite the recent progress in
SER, state-of-the-art models struggle to achieve a satisfactory performance. We
propose a self-attention based method with combined use of label-adaptive mixup
and center loss. By adapting label probabilities in mixup and fitting center
loss to the mixup training scheme, our proposed method achieves a superior
performance to the state-of-the-art methods.
- Abstract(参考訳): 音声感情認識(英語: speech emotion recognition、ser)とは、機械との自然な対話シナリオにおいて、人間の感情を認識することである。
SERの最近の進歩にもかかわらず、最先端のモデルは満足なパフォーマンスを達成するのに苦労している。
ラベル適応型ミックスアップとセンターロスを併用したセルフアテンションベース手法を提案する。
提案手法は,ミックスアップにおけるラベル確率とフィッティングセンター損失をミックスアップ訓練方式に適合させることにより,最先端手法よりも優れた性能が得られる。
関連論文リスト
- Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation [23.309174697717374]
会話における感情認識(英: Emotion Recognition in Conversation、ERC)とは、会話の中で各発話の背後にある感情を検出することである。
類似した感情に対してより識別可能な発話表現を生成できる感情認識コントラスト学習フレームワークを提案する。
提案したEACLは、最先端の感情認識性能を達成し、類似した感情に対して優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-29T17:00:55Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z) - Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-15T01:55:37Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。