論文の概要: Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation
- arxiv url: http://arxiv.org/abs/2108.02510v2
- Date: Sun, 8 Aug 2021 19:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 08:33:51.569928
- Title: Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation
- Title(参考訳): 伝達学習とスペクトログラム増強による音声感情認識の改善
- Authors: Sarala Padi, Seyed Omid Sadjadi, Dinesh Manocha, Ram D. Sriram
- Abstract要約: 音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
- 参考スコア(独自算出の注目度): 56.264157127549446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech emotion recognition (SER) is a challenging task that plays a
crucial role in natural human-computer interaction. One of the main challenges
in SER is data scarcity, i.e., insufficient amounts of carefully labeled data
to build and fully explore complex deep learning models for emotion
classification. This paper aims to address this challenge using a transfer
learning strategy combined with spectrogram augmentation. Specifically, we
propose a transfer learning approach that leverages a pre-trained residual
network (ResNet) model including a statistics pooling layer from speaker
recognition trained using large amounts of speaker-labeled data. The statistics
pooling layer enables the model to efficiently process variable-length input,
thereby eliminating the need for sequence truncation which is commonly used in
SER systems. In addition, we adopt a spectrogram augmentation technique to
generate additional training data samples by applying random time-frequency
masks to log-mel spectrograms to mitigate overfitting and improve the
generalization of emotion recognition models. We evaluate the effectiveness of
our proposed approach on the interactive emotional dyadic motion capture
(IEMOCAP) dataset. Experimental results indicate that the transfer learning and
spectrogram augmentation approaches improve the SER performance, and when
combined achieve state-of-the-art results.
- Abstract(参考訳): 自動音声感情認識(ser)は,人間とコンピュータの対話において重要な役割を果たす課題である。
serの主な課題の1つは、データ不足、すなわち感情分類のための複雑なディープラーニングモデルを構築し、完全に探索するために慎重にラベル付けされたデータの不足である。
本稿では,この課題に対して,スペクトログラム拡張と併用した伝達学習戦略を提案する。
具体的には,大量の話者ラベルデータを用いて学習した話者認識から,統計プーリング層を含む事前学習された残差ネットワーク(resnet)モデルを活用する転送学習手法を提案する。
統計プーリング層は、モデルが可変長入力を効率的に処理できるため、serシステムで一般的に使用されるシーケンス切断の必要性をなくすことができる。
さらに,不規則な時間周波数マスクをログメル・スペクトログラムに適用することにより,感情認識モデルの一般化を緩和し,追加のトレーニングデータサンプルを生成するためのスペクトログラム拡張手法も採用した。
対話型情緒的動作キャプチャー(IEMOCAP)データセットにおける提案手法の有効性を評価する。
実験結果から,移動学習とスペクトログラム増強のアプローチにより,SERの性能が向上し,同時に最先端の結果が得られた。
関連論文リスト
- Joint-Embedding Masked Autoencoder for Self-supervised Learning of
Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。