論文の概要: Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks
for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2112.13350v1
- Date: Sun, 26 Dec 2021 10:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:25:55.842486
- Title: Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks
for Emotion Recognition
- Title(参考訳): 感情認識のための2チャンネル長短期記憶圧縮カプセルネットワーク
- Authors: Ismail Shahin, Noor Hindawi, Ali Bou Nassif, Adi Alhudhaif, Kemal
Polat
- Abstract要約: 本研究では,テキストに依存しない,話者に依存しない新しいSERアーキテクチャを提案する。
CapsNetの構造的特徴に基づいて,2チャネル長短期メモリ圧縮CapsNetアルゴリズムを提案する。
4つのデータセットとMFCCのデルタデルタを使って、DC-LSTM COMP-CapsNetは最先端のシステムをすべて超越している。
- 参考スコア(独自算出の注目度): 1.1799563040751588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent analysis on speech emotion recognition has made considerable advances
with the use of MFCCs spectrogram features and the implementation of neural
network approaches such as convolutional neural networks (CNNs). Capsule
networks (CapsNet) have gained gratitude as alternatives to CNNs with their
larger capacities for hierarchical representation. To address these issues,
this research introduces a text-independent and speaker-independent SER novel
architecture, where a dual-channel long short-term memory compressed-CapsNet
(DC-LSTM COMP-CapsNet) algorithm is proposed based on the structural features
of CapsNet. Our proposed novel classifier can ensure the energy efficiency of
the model and adequate compression method in speech emotion recognition, which
is not delivered through the original structure of a CapsNet. Moreover, the
grid search approach is used to attain optimal solutions. Results witnessed an
improved performance and reduction in the training and testing running time.
The speech datasets used to evaluate our algorithm are: Arabic Emirati-accented
corpus, English speech under simulated and actual stress corpus, English
Ryerson audio-visual database of emotional speech and song corpus, and
crowd-sourced emotional multimodal actors dataset. This work reveals that the
optimum feature extraction method compared to other known methods is MFCCs
delta-delta. Using the four datasets and the MFCCs delta-delta, DC-LSTM
COMP-CapsNet surpasses all the state-of-the-art systems, classical classifiers,
CNN, and the original CapsNet. Using the Arabic Emirati-accented corpus, our
results demonstrate that the proposed work yields average emotion recognition
accuracy of 89.3% compared to 84.7%, 82.2%, 69.8%, 69.2%, 53.8%, 42.6%, and
31.9% based on CapsNet, CNN, support vector machine, multi-layer perceptron,
k-nearest neighbor, radial basis function, and naive Bayes, respectively.
- Abstract(参考訳): 近年,MFCCのスペクトログラム機能の利用や,畳み込みニューラルネットワーク(CNN)などのニューラルネットワークアプローチの実装により,音声の感情認識が大幅に進歩している。
カプセルネットワーク(capsnet)はcnnの代替品として、階層的な表現能力の増大に感謝している。
これらの問題に対処するため,本研究では,CapsNetの構造的特徴に基づいて,2チャネル長短期メモリ圧縮CapsNet (DC-LSTM COMP-CapsNet) アルゴリズムを提案する。
提案する新しい分類器は,capsnetの本来の構造では提供されない音声感情認識において,モデルのエネルギー効率と適切な圧縮手法を保証できる。
さらに, 最適解を得るためにはグリッド探索法が用いられる。
結果は、トレーニングとテストの実行時間の改善とパフォーマンスの低下を目撃した。
アルゴリズムを評価するために使用される音声データセットは、アラビア語のemirati-accented corpus、シミュレーションされた実際のストレスコーパスに基づく英語音声、感情音声と歌コーパスの英語ryerson音声視覚データベース、クラウドソースされた感情的マルチモーダルアクタデータセットである。
本研究は、他の既知の手法と比較して最適な特徴抽出法がMFCCs delta-deltaであることを示す。
4つのデータセットとMFCCs delta-deltaを使用して、DC-LSTM COMP-CapsNetは、最先端システム、古典的分類器、CNN、およびオリジナルのCapsNetを上回っている。
その結果,提案手法は平均感情認識精度を84.7%,82.2%,69.8%,69.2%,53.8%,42.6%,31.9%のcapsnet,cnn,サポートベクターマシン,多層パーセプトロン,k-nearest近傍,ラジアル基底関数,ナイーブベイと比較し,89.3%の精度が得られることがわかった。
関連論文リスト
- Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Exploring Turkish Speech Recognition via Hybrid CTC/Attention
Architecture and Multi-feature Fusion Network [1.514049362441354]
本稿では,音声認識チューニング技術のシリーズについて検討する。
本稿では,効率的な特徴情報の利用を最大化するために,新たな特徴抽出器LSPCを提案する。
我々のモデル性能は、先進的なエンド・ツー・エンドモデルに匹敵する。
論文 参考訳(メタデータ) (2023-03-22T04:11:35Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Continuous sign language recognition from wearable IMUs using deep
capsule networks and game theory [0.0]
本稿では,インド手話認識のための新しい1次元深層カプセルネットワーク(CapsNet)を提案する。
提案したCapsNetでは、3つのルーティングで94%、5つのルーティングで92.50%の精度が向上し、畳み込みニューラルネットワーク(CNN)では87.99%の精度が得られた。
論文 参考訳(メタデータ) (2020-04-27T01:21:16Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。