論文の概要: Speech Emotion Recognition with Global-Aware Fusion on Multi-scale
Feature Representation
- arxiv url: http://arxiv.org/abs/2204.05571v1
- Date: Tue, 12 Apr 2022 07:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 00:10:55.740933
- Title: Speech Emotion Recognition with Global-Aware Fusion on Multi-scale
Feature Representation
- Title(参考訳): マルチスケール特徴表現におけるグローバルアウェア融合による音声感情認識
- Authors: Wenjing Zhu, Xiang Li
- Abstract要約: 音声認識(SER)は、音声データから感情ラベルを予測するための基本的なタスクである。
最近の研究は、主に畳み込みニューラルネットワーク(CNN)を使用して、固定スケールの特徴表現の局所的な注意マップを学ぶことに重点を置いている。
本稿では,GLobal-Aware Multi-scale(GLAM)ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 5.20970006627454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech Emotion Recognition (SER) is a fundamental task to predict the emotion
label from speech data. Recent works mostly focus on using convolutional neural
networks~(CNNs) to learn local attention map on fixed-scale feature
representation by viewing time-varied spectral features as images. However,
rich emotional feature at different scales and important global information are
not able to be well captured due to the limits of existing CNNs for SER. In
this paper, we propose a novel GLobal-Aware Multi-scale (GLAM) neural network
(The code is available at https://github.com/lixiangucas01/GLAM) to learn
multi-scale feature representation with global-aware fusion module to attend
emotional information. Specifically, GLAM iteratively utilizes multiple
convolutional kernels with different scales to learn multiple feature
representation. Then, instead of using attention-based methods, a simple but
effective global-aware fusion module is applied to grab most important
emotional information globally. Experiments on the benchmark corpus IEMOCAP
over four emotions demonstrates the superiority of our proposed model with 2.5%
to 4.5% improvements on four common metrics compared to previous
state-of-the-art approaches.
- Abstract(参考訳): 音声感情認識(ser)は、音声データから感情ラベルを予測するための基本課題である。
最近の研究は主に畳み込みニューラルネットワーク(cnns)を用いて、時間変化スペクトル特徴を画像として見ることにより、固定スケール特徴表現の局所的注意マップを学習することに焦点を当てている。
しかし、SERの既存のCNNの限界のため、異なるスケールでのリッチな感情的特徴や重要なグローバル情報を得ることはできない。
本稿では,新しいグローバル・アウェア・マルチ・スケール(glam)ニューラルネットワークを提案する(コードはhttps://github.com/lixiangucas01/glamで利用可能)。
具体的には、GLAMは異なるスケールの複数の畳み込みカーネルを反復的に利用して、複数の特徴表現を学習する。
次に、注意に基づく方法を使う代わりに、最も重要な感情情報を取得するために、単純で効果的なグローバルアウェア・フュージョンモジュールが適用される。
ベンチマークコーパスにおけるiemocapの4つの感情に対する実験は、提案モデルが4つの一般的なメトリクスに対して2.5%から4.5%改善されていることを示した。
関連論文リスト
- A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion
Causality for Speech Emotion Recognition [14.700043991797537]
本稿では,新しい感情的因果表現学習コンポーネントを構築するために,GM-TCNet(Gated Multi-scale Temporal Convolutional Network)を提案する。
GM-TCNetは、時間領域全体の感情のダイナミクスを捉えるために、新しい感情因果表現学習コンポーネントをデプロイする。
我々のモデルは、最先端技術と比較して、ほとんどのケースで最高の性能を維持している。
論文 参考訳(メタデータ) (2022-10-28T02:00:40Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。