Fugu-MT 論文翻訳(概要): Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation

論文の概要: Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation

arxiv url: http://arxiv.org/abs/2204.05571v1
Date: Tue, 12 Apr 2022 07:03:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-14 00:10:55.740933
Title: Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation
Title（参考訳）: マルチスケール特徴表現におけるグローバルアウェア融合による音声感情認識
Authors: Wenjing Zhu, Xiang Li
Abstract要約: 音声認識(SER)は、音声データから感情ラベルを予測するための基本的なタスクである。最近の研究は、主に畳み込みニューラルネットワーク(CNN)を使用して、固定スケールの特徴表現の局所的な注意マップを学ぶことに重点を置いている。本稿では,GLobal-Aware Multi-scale(GLAM)ニューラルネットワークを提案する。
参考スコア（独自算出の注目度）: 5.20970006627454
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Speech Emotion Recognition (SER) is a fundamental task to predict the emotion label from speech data. Recent works mostly focus on using convolutional neural networks~(CNNs) to learn local attention map on fixed-scale feature representation by viewing time-varied spectral features as images. However, rich emotional feature at different scales and important global information are not able to be well captured due to the limits of existing CNNs for SER. In this paper, we propose a novel GLobal-Aware Multi-scale (GLAM) neural network (The code is available at https://github.com/lixiangucas01/GLAM) to learn multi-scale feature representation with global-aware fusion module to attend emotional information. Specifically, GLAM iteratively utilizes multiple convolutional kernels with different scales to learn multiple feature representation. Then, instead of using attention-based methods, a simple but effective global-aware fusion module is applied to grab most important emotional information globally. Experiments on the benchmark corpus IEMOCAP over four emotions demonstrates the superiority of our proposed model with 2.5% to 4.5% improvements on four common metrics compared to previous state-of-the-art approaches.
Abstract（参考訳）: 音声感情認識(ser)は、音声データから感情ラベルを予測するための基本課題である。最近の研究は主に畳み込みニューラルネットワーク(cnns)を用いて、時間変化スペクトル特徴を画像として見ることにより、固定スケール特徴表現の局所的注意マップを学習することに焦点を当てている。しかし、SERの既存のCNNの限界のため、異なるスケールでのリッチな感情的特徴や重要なグローバル情報を得ることはできない。本稿では,新しいグローバル・アウェア・マルチ・スケール(glam)ニューラルネットワークを提案する(コードはhttps://github.com/lixiangucas01/glamで利用可能)。具体的には、GLAMは異なるスケールの複数の畳み込みカーネルを反復的に利用して、複数の特徴表現を学習する。次に、注意に基づく方法を使う代わりに、最も重要な感情情報を取得するために、単純で効果的なグローバルアウェア・フュージョンモジュールが適用される。ベンチマークコーパスにおけるiemocapの4つの感情に対する実験は、提案モデルが4つの一般的なメトリクスに対して2.5%から4.5%改善されていることを示した。

関連論文リスト

MGHFT: Multi-Granularity Hierarchical Fusion Transformer for Cross-Modal Sticker Emotion Recognition [29.045940445247872]
新規な多粒性階層型核融合変圧器(MGHFT)を提案する。まず、マルチモーダル大言語モデルを用いてステッカーを解釈する。そして、テキストコンテキストを視覚的理解に融合させる階層的な融合戦略を設計する。
論文参考訳（メタデータ） (2025-07-25T03:42:26Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework [0.7864304771129751]
音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
論文参考訳（メタデータ） (2024-12-13T09:55:03Z)
A Contextualized Real-Time Multimodal Emotion Recognition for Conversational Agents using Graph Convolutional Networks in Reinforcement Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文参考訳（メタデータ） (2023-10-24T14:31:17Z)
TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文参考訳（メタデータ） (2023-08-06T09:08:37Z)
EMERSK -- Explainable Multimodal Emotion Recognition with Situational Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。 EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文参考訳（メタデータ） (2023-06-14T17:52:37Z)
GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion Causality for Speech Emotion Recognition [14.700043991797537]
本稿では,新しい感情的因果表現学習コンポーネントを構築するために,GM-TCNet(Gated Multi-scale Temporal Convolutional Network)を提案する。 GM-TCNetは、時間領域全体の感情のダイナミクスを捉えるために、新しい感情因果表現学習コンポーネントをデプロイする。我々のモデルは、最先端技術と比較して、ほとんどのケースで最高の性能を維持している。
論文参考訳（メタデータ） (2022-10-28T02:00:40Z)
Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文参考訳（メタデータ） (2021-10-12T16:57:18Z)
Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文参考訳（メタデータ） (2021-09-29T07:08:40Z)
Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-06-08T06:45:42Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文参考訳（メタデータ） (2021-01-29T07:46:39Z)
EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文参考訳（メタデータ） (2020-03-14T19:55:21Z)
An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文参考訳（メタデータ） (2020-02-12T15:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。