論文の概要: Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus
Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2308.02190v1
- Date: Fri, 4 Aug 2023 08:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:30:42.775097
- Title: Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus
Speech Emotion Recognition
- Title(参考訳): Emo-DNA:クロスコーパス音声認識のための感情分離とアライメント学習
- Authors: Jiaxin Ye and Yujie Wei and Xin-Cheng Wen and Chenglong Ma and
Zhizhong Huang and Kunhong Liu and Hongming Shan
- Abstract要約: クロスコーパス音声感情認識(SER)は、よくラベルされたコーパスからラベルのない音声感情を推測する能力を一般化しようとする。
既存の手法は、典型的には教師なし領域適応(UDA)に基づいており、グローバルな分布アライメントによってコーパス不変の特徴を学ぶのに苦労している。
クロスコーパスSERのための新しい感情デカップリングaNdアライメント学習フレームワーク(EMO-DNA)を提案する。
- 参考スコア(独自算出の注目度): 16.159171586384023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-corpus speech emotion recognition (SER) seeks to generalize the ability
of inferring speech emotion from a well-labeled corpus to an unlabeled one,
which is a rather challenging task due to the significant discrepancy between
two corpora. Existing methods, typically based on unsupervised domain
adaptation (UDA), struggle to learn corpus-invariant features by global
distribution alignment, but unfortunately, the resulting features are mixed
with corpus-specific features or not class-discriminative. To tackle these
challenges, we propose a novel Emotion Decoupling aNd Alignment learning
framework (EMO-DNA) for cross-corpus SER, a novel UDA method to learn
emotion-relevant corpus-invariant features. The novelties of EMO-DNA are
two-fold: contrastive emotion decoupling and dual-level emotion alignment. On
one hand, our contrastive emotion decoupling achieves decoupling learning via a
contrastive decoupling loss to strengthen the separability of emotion-relevant
features from corpus-specific ones. On the other hand, our dual-level emotion
alignment introduces an adaptive threshold pseudo-labeling to select confident
target samples for class-level alignment, and performs corpus-level alignment
to jointly guide model for learning class-discriminative corpus-invariant
features across corpora. Extensive experimental results demonstrate the
superior performance of EMO-DNA over the state-of-the-art methods in several
cross-corpus scenarios. Source code is available at
https://github.com/Jiaxin-Ye/Emo-DNA.
- Abstract(参考訳): クロスコーパス音声感情認識(ser:cross-corpus speech emotion recognition)は、よくラベル付けされたコーパスからラベルなしのコーパスへ音声感情を推測する能力を一般化することを目的としている。
非教師なしドメイン適応(unsupervised domain adaptation:uda)に基づいた既存の手法では、グローバル分布アライメントによるコーパス不変特徴の学習に苦慮するが、残念ながら、結果として得られる特徴はコーパス固有の特徴と混合され、クラス差別的でない。
これらの課題に対処するため、我々は、感情関連コーパス不変の特徴を学習する新しいUDA手法であるクロスコーパスSERのための新しい感情デカップリングaNdアライメント学習フレームワーク(EMO-DNA)を提案する。
EMO-DNAの新規性は、対照的な感情分離と二重レベルの感情アライメントである。
一方,コントラスト的感情分離は,コントラスト的感情分離による学習の分離を実現し,コーパス特有の特徴との感情関連特徴の分離性を高める。
一方,デュアルレベル感情アライメントでは,クラスレベルアライメントのための自信のあるターゲットサンプルを選択できる適応しきい値擬似ラベルを導入し,コーパスレベルアライメントによってコーパス全体にわたるクラス識別コーパス不変特徴の学習を行う。
複数のクロスコーパスシナリオにおける最先端手法よりもEMO-DNAの方が優れた性能を示す。
ソースコードはhttps://github.com/Jiaxin-Ye/Emo-DNAで入手できる。
関連論文リスト
- Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation [23.309174697717374]
会話における感情認識(英: Emotion Recognition in Conversation、ERC)とは、会話の中で各発話の背後にある感情を検出することである。
類似した感情に対してより識別可能な発話表現を生成できる感情認識コントラスト学習フレームワークを提案する。
提案したEACLは、最先端の感情認識性能を達成し、類似した感情に対して優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-29T17:00:55Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech
Emotion Recognition [19.281716812246557]
深層暗黙分布アライメントネットワーク(DIDAN)と呼ばれる新しい深層移動学習手法を提案する。
DIDANは、ラベル付きトレーニング(ソース)と未ラベルテスト(ターゲット)の音声信号が異なるコーパスから来る、クロスコーパス音声の感情認識問題を扱う。
提案したDIDANを評価するために,広範に使用されている音声感情コーパスに対する広範囲なクロスコーパスSER実験を行った。
論文 参考訳(メタデータ) (2023-02-17T14:51:37Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - When Facial Expression Recognition Meets Few-Shot Learning: A Joint and
Alternate Learning Framework [60.51225419301642]
実践シナリオにおける人間の感情の多様性に対応するために,感情ガイド型類似ネットワーク(EGS-Net)を提案する。
EGS-Netは2段階の学習フレームワークに基づいた感情ブランチと類似性ブランチで構成されている。
In-the-labとin-the-wildの複合表現データセットの実験結果から,提案手法がいくつかの最先端手法に対して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-18T07:24:12Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - A Generalized Zero-Shot Framework for Emotion Recognition from Body
Gestures [5.331671302839567]
本稿では,新しい身体ジェスチャーの感情状態を推測する汎用ゼロショット学習(GZSL)フレームワークを提案する。
このフレームワークは従来の感情分類法や最先端のゼロショット学習法よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-10-13T13:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。