論文の概要: Speaker Attentive Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2104.07288v1
- Date: Thu, 15 Apr 2021 07:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:45:00.243950
- Title: Speaker Attentive Speech Emotion Recognition
- Title(参考訳): 話者注意型音声感情認識
- Authors: Cl\'ement Le Moine, Nicolas Obin and Axel Roebel
- Abstract要約: 音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
- 参考スコア(独自算出の注目度): 11.92436948211501
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech Emotion Recognition (SER) task has known significant improvements over
the last years with the advent of Deep Neural Networks (DNNs). However, even
the most successful methods are still rather failing when adaptation to
specific speakers and scenarios is needed, inevitably leading to poorer
performances when compared to humans. In this paper, we present novel work
based on the idea of teaching the emotion recognition network about speaker
identity. Our system is a combination of two ACRNN classifiers respectively
dedicated to speaker and emotion recognition. The first informs the latter
through a Self Speaker Attention (SSA) mechanism that is shown to considerably
help to focus on emotional information of the speech signal. Experiments on
social attitudes database Att-HACK and IEMOCAP corpus demonstrate the
effectiveness of the proposed method and achieve the state-of-the-art
performance in terms of unweighted average recall.
- Abstract(参考訳): 音声感情認識(SER)タスクは、Deep Neural Networks(DNN)の出現により、ここ数年で大幅に改善されている。
しかしながら、最も成功した方法でさえ、特定の話者やシナリオへの適応が必要なときにはまだ失敗し、必然的に人間に比べてパフォーマンスが劣る。
本稿では,感情認識ネットワークに話者同一性について教えるというアイデアに基づく新しい研究について述べる。
本システムは,話者認識と感情認識に特化した2つのACRNN分類器の組み合わせである。
1つ目は、音声信号の感情的な情報に焦点を合わせるのに大いに役立つ自己話者注意(SSA)メカニズムを通じて後者に通知する。
社会的態度データベース Att-HACK と IEMOCAP コーパスの実験は,提案手法の有効性を実証し,非重み付き平均リコールの観点から最先端のパフォーマンスを実現する。
関連論文リスト
- Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition [32.439818455554885]
話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。
この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
論文 参考訳(メタデータ) (2020-03-03T12:25:03Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。