論文の概要: Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2109.09026v1
- Date: Sat, 18 Sep 2021 23:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 07:49:01.751584
- Title: Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition
- Title(参考訳): 音声感情認識のためのハイブリッドデータ拡張と深層注意型拡張畳み込み-リカレントニューラルネットワーク
- Authors: Nhat Truong Pham, Duc Ngoc Minh Dang, Sy Dzung Nguyen
- Abstract要約: 本稿では,GAN法に基づくハイブリッドデータ拡張法について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
- 参考スコア(独自算出の注目度): 1.1086440815804228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) has been one of the significant tasks in
Human-Computer Interaction (HCI) applications. However, it is hard to choose
the optimal features and deal with imbalance labeled data. In this article, we
investigate hybrid data augmentation (HDA) methods to generate and balance data
based on traditional and generative adversarial networks (GAN) methods. To
evaluate the effectiveness of HDA methods, a deep learning framework namely
(ADCRNN) is designed by integrating deep dilated convolutional-recurrent neural
networks with an attention mechanism. Besides, we choose 3D log Mel-spectrogram
(MelSpec) features as the inputs for the deep learning framework. Furthermore,
we reconfigure a loss function by combining a softmax loss and a center loss to
classify the emotions. For validating our proposed methods, we use the EmoDB
dataset that consists of several emotions with imbalanced samples. Experimental
results prove that the proposed methods achieve better accuracy than the
state-of-the-art methods on the EmoDB with 87.12% and 88.47% for the
traditional and GAN-based methods, respectively.
- Abstract(参考訳): 音声感情認識(ser)は、人間-コンピュータインタラクション(hci)アプリケーションにおける重要なタスクの1つである。
しかし、最適な特徴を選択し、不均衡なラベル付きデータを扱うのは難しい。
本稿では,従来のgan(generative adversarial networks)法に基づくハイブリッドデータ拡張法(hybrid data augmentation,hda)について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
さらに、ディープラーニングフレームワークの入力として、3DログのMel-spectrogram(MelSpec)機能を選択します。
さらに,ソフトマックス損失と中心損失を組み合わせて損失関数を再構成し,感情を分類する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
実験の結果,提案手法は従来の手法とGAN法でそれぞれ87.12%,88.47%の精度でEmoDBの最先端手法よりも精度が高いことがわかった。
関連論文リスト
- CV-Attention UNet: Attention-based UNet for 3D Cerebrovascular
Segmentation of Enhanced TOF-MRA Images [2.5311562666866494]
脳血管画像の正確な抽出にはCV-AttentionUNetと呼ばれる3次元脳血管注意UNet法を提案する。
低と高のセマンティクスを組み合わせるために,注意機構を適用した。
このアルゴリズムの新規性は、ラベル付きデータとラベルなしデータの両方でうまく機能する能力にあると考えています。
論文 参考訳(メタデータ) (2023-11-16T22:31:05Z) - Graph Convolutional Network with Connectivity Uncertainty for EEG-based
Emotion Recognition [20.655367200006076]
本研究では,脳波信号の空間依存性と時間スペクトルの相対性を表す分布に基づく不確実性手法を提案する。
グラフ混合手法は、遅延接続エッジを強化し、ノイズラベル問題を緩和するために用いられる。
感情認識タスクにおいて、SEEDとSEEDIVという2つの広く使われているデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-10-22T03:47:11Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - A Hybrid End-to-End Spatio-Temporal Attention Neural Network with
Graph-Smooth Signals for EEG Emotion Recognition [1.6328866317851187]
本稿では,ネットワーク・テンポラルエンコーディングと繰り返しアテンションブロックのハイブリッド構造を用いて,解釈可能な表現を取得するディープニューラルネットワークを提案する。
提案したアーキテクチャは、公開されているDEAPデータセット上での感情分類の最先端結果を上回ることを実証する。
論文 参考訳(メタデータ) (2023-07-06T15:35:14Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - ScalingNet: extracting features from raw EEG data for emotion
recognition [4.047737925426405]
生の脳波信号から効果的なデータ駆動スペクトログラムのような特徴を適応的に抽出できる新しい畳み込み層を提案する。
スケーリング層に基づくニューラルネットワークアーキテクチャであるScalingNetは、確立されたDEAPベンチマークデータセット全体で最先端の結果を達成した。
論文 参考訳(メタデータ) (2021-02-07T08:54:27Z) - Emotional EEG Classification using Connectivity Features and
Convolutional Neural Networks [81.74442855155843]
CNNと脳のつながりを利用した新しい分類システムを導入し,その効果を感情映像分類により検証する。
対象映像の感情的特性に関連する脳接続の集中度は分類性能と相関する。
論文 参考訳(メタデータ) (2021-01-18T13:28:08Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。