論文の概要: Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2109.09026v1
- Date: Sat, 18 Sep 2021 23:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 07:49:01.751584
- Title: Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition
- Title(参考訳): 音声感情認識のためのハイブリッドデータ拡張と深層注意型拡張畳み込み-リカレントニューラルネットワーク
- Authors: Nhat Truong Pham, Duc Ngoc Minh Dang, Sy Dzung Nguyen
- Abstract要約: 本稿では,GAN法に基づくハイブリッドデータ拡張法について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
- 参考スコア(独自算出の注目度): 1.1086440815804228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) has been one of the significant tasks in
Human-Computer Interaction (HCI) applications. However, it is hard to choose
the optimal features and deal with imbalance labeled data. In this article, we
investigate hybrid data augmentation (HDA) methods to generate and balance data
based on traditional and generative adversarial networks (GAN) methods. To
evaluate the effectiveness of HDA methods, a deep learning framework namely
(ADCRNN) is designed by integrating deep dilated convolutional-recurrent neural
networks with an attention mechanism. Besides, we choose 3D log Mel-spectrogram
(MelSpec) features as the inputs for the deep learning framework. Furthermore,
we reconfigure a loss function by combining a softmax loss and a center loss to
classify the emotions. For validating our proposed methods, we use the EmoDB
dataset that consists of several emotions with imbalanced samples. Experimental
results prove that the proposed methods achieve better accuracy than the
state-of-the-art methods on the EmoDB with 87.12% and 88.47% for the
traditional and GAN-based methods, respectively.
- Abstract(参考訳): 音声感情認識(ser)は、人間-コンピュータインタラクション(hci)アプリケーションにおける重要なタスクの1つである。
しかし、最適な特徴を選択し、不均衡なラベル付きデータを扱うのは難しい。
本稿では,従来のgan(generative adversarial networks)法に基づくハイブリッドデータ拡張法(hybrid data augmentation,hda)について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
さらに、ディープラーニングフレームワークの入力として、3DログのMel-spectrogram(MelSpec)機能を選択します。
さらに,ソフトマックス損失と中心損失を組み合わせて損失関数を再構成し,感情を分類する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
実験の結果,提案手法は従来の手法とGAN法でそれぞれ87.12%,88.47%の精度でEmoDBの最先端手法よりも精度が高いことがわかった。
関連論文リスト
- Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition [0.5985204759362747]
我々はMutual-Cross-Attention (MCA) と呼ばれる新規で効果的な機能融合機構を提案する。
MCAは脳波データにおける時間領域と周波数領域の特徴の相補的関係を発見する。
提案手法は最終的にDEAデータセット上で99.49%(原子価)と99.30%(原子価)の精度を達成する。
論文 参考訳(メタデータ) (2024-06-20T06:08:52Z) - CV-Attention UNet: Attention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images [2.2265536092123006]
脳血管画像の正確な抽出にはCV-AttentionUNetと呼ばれる3次元脳血管注意UNet法を提案する。
低と高のセマンティクスを組み合わせるために,注意機構を適用した。
このアルゴリズムの新規性は、ラベル付きデータとラベルなしデータの両方でうまく機能する能力にあると考えています。
論文 参考訳(メタデータ) (2023-11-16T22:31:05Z) - Graph Convolutional Network with Connectivity Uncertainty for EEG-based
Emotion Recognition [20.655367200006076]
本研究では,脳波信号の空間依存性と時間スペクトルの相対性を表す分布に基づく不確実性手法を提案する。
グラフ混合手法は、遅延接続エッジを強化し、ノイズラベル問題を緩和するために用いられる。
感情認識タスクにおいて、SEEDとSEEDIVという2つの広く使われているデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-10-22T03:47:11Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis [44.45598796591008]
機能的磁気共鳴画像(fMRI)を軽度認知障害解析のための効果的な接続性にマッピングするために,脳画像から画像へのBIGG(Brain Imaging-to-graph generation)フレームワークを提案する。
発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。
ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T06:54:56Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - ScalingNet: extracting features from raw EEG data for emotion
recognition [4.047737925426405]
生の脳波信号から効果的なデータ駆動スペクトログラムのような特徴を適応的に抽出できる新しい畳み込み層を提案する。
スケーリング層に基づくニューラルネットワークアーキテクチャであるScalingNetは、確立されたDEAPベンチマークデータセット全体で最先端の結果を達成した。
論文 参考訳(メタデータ) (2021-02-07T08:54:27Z) - Emotional EEG Classification using Connectivity Features and
Convolutional Neural Networks [81.74442855155843]
CNNと脳のつながりを利用した新しい分類システムを導入し,その効果を感情映像分類により検証する。
対象映像の感情的特性に関連する脳接続の集中度は分類性能と相関する。
論文 参考訳(メタデータ) (2021-01-18T13:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。