論文の概要: GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion
Causality for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2210.15834v1
- Date: Fri, 28 Oct 2022 02:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:18:06.033361
- Title: GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion
Causality for Speech Emotion Recognition
- Title(参考訳): GM-TCNet:感情因果性を用いたマルチスケール時間畳み込みネットワークによる音声認識
- Authors: Jia-Xin Ye, Xin-Cheng Wen, Xuan-Ze Wang, Yong Xu, Yan Luo, Chang-Li
Wu, Li-Yan Chen, Kun-Hong Liu
- Abstract要約: 本稿では,新しい感情的因果表現学習コンポーネントを構築するために,GM-TCNet(Gated Multi-scale Temporal Convolutional Network)を提案する。
GM-TCNetは、時間領域全体の感情のダイナミクスを捉えるために、新しい感情因果表現学習コンポーネントをデプロイする。
我々のモデルは、最先端技術と比較して、ほとんどのケースで最高の性能を維持している。
- 参考スコア(独自算出の注目度): 14.700043991797537
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In human-computer interaction, Speech Emotion Recognition (SER) plays an
essential role in understanding the user's intent and improving the interactive
experience. While similar sentimental speeches own diverse speaker
characteristics but share common antecedents and consequences, an essential
challenge for SER is how to produce robust and discriminative representations
through causality between speech emotions. In this paper, we propose a Gated
Multi-scale Temporal Convolutional Network (GM-TCNet) to construct a novel
emotional causality representation learning component with a multi-scale
receptive field. GM-TCNet deploys a novel emotional causality representation
learning component to capture the dynamics of emotion across the time domain,
constructed with dilated causal convolution layer and gating mechanism.
Besides, it utilizes skip connection fusing high-level features from different
gated convolution blocks to capture abundant and subtle emotion changes in
human speech. GM-TCNet first uses a single type of feature, mel-frequency
cepstral coefficients, as inputs and then passes them through the gated
temporal convolutional module to generate the high-level features. Finally, the
features are fed to the emotion classifier to accomplish the SER task. The
experimental results show that our model maintains the highest performance in
most cases compared to state-of-the-art techniques.
- Abstract(参考訳): 人-コンピュータインタラクションにおいて、音声感情認識(SER)はユーザの意図を理解し、対話的体験を改善する上で重要な役割を果たす。
類似した感情的なスピーチは多様な話者特性を持つが、共通の先行性と結果を共有するが、serにとって不可欠な課題は、音声感情間の因果関係を通じて頑健で差別的な表現を作り出す方法である。
本稿では,マルチスケールの受容場を持つ新しい感情因果関係表現学習コンポーネントを構築するためのゲート型多スケール時相畳み込みネットワーク(gm-tcnet)を提案する。
GM-TCNetは、時間領域全体にわたる感情のダイナミクスを捉え、拡張因果畳み込み層とゲーティング機構で構築する、新しい感情因果表現学習コンポーネントをデプロイする。
さらに、異なるゲートの畳み込みブロックから高レベルの特徴を引き出すスキップ接続を利用して、人間の発話における豊富な微妙な感情の変化を捉える。
GM-TCNetは最初、入力としてメル周波数ケプストラム係数という単一タイプの特徴を使い、その後、ゲート時間的畳み込みモジュールを通して高レベルの特徴を生成する。
最後に、これらの機能は感情分類器に送られ、SERタスクを達成する。
実験の結果,我々のモデルは最先端技術と比較して,ほとんどのケースで最高の性能を維持していることがわかった。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach
for Speech Emotion Recognition [23.13759265661777]
音声感情認識(SER)は、人間と機械の相互作用を改善する上で重要な役割を果たす。
テンポラル・アウェア bI- Multi-scale Network (TIM-Net) と呼ばれるSERのための新しい時間的感情モデル手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T13:35:01Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。