論文の概要: Learning Speech Emotion Representations in the Quaternion Domain
- arxiv url: http://arxiv.org/abs/2204.02385v1
- Date: Tue, 5 Apr 2022 17:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:58:15.514507
- Title: Learning Speech Emotion Representations in the Quaternion Domain
- Title(参考訳): 四元数領域における音声感情表現の学習
- Authors: Eric Guizzo, Tillman Weyde, Simone Scardapane, Danilo Comminiello
- Abstract要約: RH-emoは、実数値モノオーラルスペクトログラムから四元数埋め込みを抽出することを目的とした、新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
我々は、Iemocap、Ravdess、EmoDb、Tessの4つの一般的なデータセットを用いて、音声感情認識タスクに対するアプローチをテストする。
- 参考スコア(独自算出の注目度): 16.596137913051212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The modeling of human emotion expression in speech signals is an important,
yet challenging task. The high resource demand of speech emotion recognition
models, combined with the the general scarcity of emotion-labelled data are
obstacles to the development and application of effective solutions in this
field. In this paper, we present an approach to jointly circumvent these
difficulties. Our method, named RH-emo, is a novel semi-supervised architecture
aimed at extracting quaternion embeddings from real-valued monoaural
spectrograms, enabling the use of quaternion-valued networks for speech emotion
recognition tasks. RH-emo is a hybrid real/quaternion autoencoder network that
consists of a real-valued encoder in parallel to a real-valued emotion
classifier and a quaternion-valued decoder. On the one hand, the classifier
permits to optimize each latent axis of the embeddings for the classification
of a specific emotion-related characteristic: valence, arousal, dominance and
overall emotion. On the other hand, the quaternion reconstruction enables the
latent dimension to develop intra-channel correlations that are required for an
effective representation as a quaternion entity. We test our approach on speech
emotion recognition tasks using four popular datasets: Iemocap, Ravdess, EmoDb
and Tess, comparing the performance of three well-established real-valued CNN
architectures (AlexNet, ResNet-50, VGG) and their quaternion-valued equivalent
fed with the embeddings created with RH-emo. We obtain a consistent improvement
in the test accuracy for all datasets, while drastically reducing the
resources' demand of models. Moreover, we performed additional experiments and
ablation studies that confirm the effectiveness of our approach. The RH-emo
repository is available at: https://github.com/ispamm/rhemo.
- Abstract(参考訳): 音声信号における人間の感情表現のモデル化は重要でありながら難しい課題である。
音声感情認識モデルの高い資源需要と、感情標識データの全般的不足は、この分野における効果的な解の開発と適用の障害となっている。
本稿では,これらの困難を共同回避するためのアプローチを提案する。
rh-emoと呼ばれる手法は,実数値のモノオーラルスペクトログラムから四分法埋め込みを抽出することを目的とした,新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
一方、分類器は、特定の感情関連特性(原子価、覚醒、支配、全体感情)を分類するために、埋め込みの各潜伏軸を最適化することができる。
一方、四元数再構成により、潜在次元は四元数実体として有効な表現に必要なチャネル内相関を発達させることができる。
我々は、iemocap、ravedess、emodb、tessの4つの一般的なデータセットを用いて、音声感情認識タスクのアプローチをテストし、rh-emoで生成された埋め込みで供給される3つの確立された実数値cnnアーキテクチャ(alexnet、resnet-50、vgg)と4元価値等価性のパフォーマンスを比較した。
すべてのデータセットのテスト精度が一貫した改善を実現し、モデルに対するリソースの需要を大幅に削減します。
さらに,本手法の有効性を確認するため,追加実験およびアブレーション実験を行った。
RH-emoリポジトリは以下の通りである。
関連論文リスト
- EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - A Hybrid End-to-End Spatio-Temporal Attention Neural Network with
Graph-Smooth Signals for EEG Emotion Recognition [1.6328866317851187]
本稿では,ネットワーク・テンポラルエンコーディングと繰り返しアテンションブロックのハイブリッド構造を用いて,解釈可能な表現を取得するディープニューラルネットワークを提案する。
提案したアーキテクチャは、公開されているDEAPデータセット上での感情分類の最先端結果を上回ることを実証する。
論文 参考訳(メタデータ) (2023-07-06T15:35:14Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks [1.776746672434207]
本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
論文 参考訳(メタデータ) (2021-10-31T04:06:07Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。