論文の概要: Contrastive Unsupervised Learning for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2102.06357v1
- Date: Fri, 12 Feb 2021 06:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 14:03:02.717487
- Title: Contrastive Unsupervised Learning for Speech Emotion Recognition
- Title(参考訳): 音声感情認識のための教師なし学習
- Authors: Mao Li, Bo Yang, Joshua Levy, Andreas Stolcke, Viktor Rozgic, Spyros
Matsoukas, Constantinos Papayiannis, Daniel Bone, Chao Wang
- Abstract要約: 音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。
コントラスト予測符号化 (cpc) 法はラベルなしのデータセットから有意な表現を学習できることを示す。
- 参考スコア(独自算出の注目度): 22.004507213531102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) is a key technology to enable more natural
human-machine communication. However, SER has long suffered from a lack of
public large-scale labeled datasets. To circumvent this problem, we investigate
how unsupervised representation learning on unlabeled datasets can benefit SER.
We show that the contrastive predictive coding (CPC) method can learn salient
representations from unlabeled datasets, which improves emotion recognition
performance. In our experiments, this method achieved state-of-the-art
concordance correlation coefficient (CCC) performance for all emotion
primitives (activation, valence, and dominance) on IEMOCAP. Additionally, on
the MSP- Podcast dataset, our method obtained considerable performance
improvements compared to baselines.
- Abstract(参考訳): 音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。
しかし、SERは長い間、公開の大規模なラベル付きデータセットの欠如に悩まされてきた。
この問題を回避するために、ラベルなしデータセット上の教師なし表現学習がSERにどのように役立つかを調査します。
コントラスト予測符号化 (cpc) 法はラベルなしデータセットから有意な表現を学習でき, 感情認識性能が向上することを示す。
本実験では,IEMOCAPの全ての感情的プリミティブ(活性化,価率,支配)に対する最新コンコーダンス相関係数(CCC)性能を達成した。
また, MSP-Podcastデータセットでは, ベースラインと比較し, 大幅な性能改善を行った。
関連論文リスト
- Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Analyzing the Influence of Dataset Composition for Emotion Recognition [0.0]
我々は2つのマルチモーダル感情認識データセットにおける影響データ収集手法の分析を行った。
完全なIEMOCAPデータセットを用いた実験は、構成がOMG-Emotion Behaviorデータセットと比較して一般化性能に悪影響を及ぼすことを示している。
論文 参考訳(メタデータ) (2021-03-05T14:20:59Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。