論文の概要: Attention Driven Fusion for Multi-Modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2009.10991v2
- Date: Sat, 10 Oct 2020 22:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:54:45.406622
- Title: Attention Driven Fusion for Multi-Modal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための注意駆動融合
- Authors: Darshana Priyasad, Tharindu Fernando, Simon Denman, Clinton Fookes,
Sridha Sridharan
- Abstract要約: 本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
- 参考スコア(独自算出の注目度): 39.295892047505816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has emerged as a powerful alternative to hand-crafted methods
for emotion recognition on combined acoustic and text modalities. Baseline
systems model emotion information in text and acoustic modes independently
using Deep Convolutional Neural Networks (DCNN) and Recurrent Neural Networks
(RNN), followed by applying attention, fusion, and classification. In this
paper, we present a deep learning-based approach to exploit and fuse text and
acoustic data for emotion classification. We utilize a SincNet layer, based on
parameterized sinc functions with band-pass filters, to extract acoustic
features from raw audio followed by a DCNN. This approach learns filter banks
tuned for emotion recognition and provides more effective features compared to
directly applying convolutions over the raw speech signal. For text processing,
we use two branches (a DCNN and a Bi-direction RNN followed by a DCNN) in
parallel where cross attention is introduced to infer the N-gram level
correlations on hidden representations received from the Bi-RNN. Following
existing state-of-the-art, we evaluate the performance of the proposed system
on the IEMOCAP dataset. Experimental results indicate that the proposed system
outperforms existing methods, achieving 3.5% improvement in weighted accuracy.
- Abstract(参考訳): 深層学習は、音響とテキストの組み合わせによる感情認識のための手作りの手法の強力な代替手段として登場した。
ベースラインシステムは、ディープ畳み込みニューラルネットワーク(DCNN)とリカレントニューラルネットワーク(RNN)を用いて、テキストおよび音響モードで感情情報を独立にモデル化し、次に注意、融合、分類を適用する。
本稿では,感情分類にテキストと音響データを活用し融合するための深層学習に基づくアプローチを提案する。
帯域通過フィルタを用いたパラメータ化sinc関数に基づくsincnet層を用いて,生オーディオから音響特徴を抽出し,dnnを付加する。
このアプローチでは,感情認識用に調整されたフィルタバンクを学習し,生音声信号に畳み込みを直接適用した場合と比較して,より効果的な特徴を提供する。
テキスト処理では、2つの分岐(DCNNとBio-direction RNNとDCNN)を並列に使用し、Bi-RNNから受信した隠れ表現に対してN-gramレベルの相関関係を推定する。
既存の現状に従って,提案システムの性能をIEMOCAPデータセット上で評価する。
実験の結果,提案手法は既存の手法を上回り,重み付け精度が3.5%向上した。
関連論文リスト
- Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - ScalingNet: extracting features from raw EEG data for emotion
recognition [4.047737925426405]
生の脳波信号から効果的なデータ駆動スペクトログラムのような特徴を適応的に抽出できる新しい畳み込み層を提案する。
スケーリング層に基づくニューラルネットワークアーキテクチャであるScalingNetは、確立されたDEAPベンチマークデータセット全体で最先端の結果を達成した。
論文 参考訳(メタデータ) (2021-02-07T08:54:27Z) - Emotional EEG Classification using Connectivity Features and
Convolutional Neural Networks [81.74442855155843]
CNNと脳のつながりを利用した新しい分類システムを導入し,その効果を感情映像分類により検証する。
対象映像の感情的特性に関連する脳接続の集中度は分類性能と相関する。
論文 参考訳(メタデータ) (2021-01-18T13:28:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。