論文の概要: Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2009.14523v1
- Date: Wed, 30 Sep 2020 09:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:40:21.350552
- Title: Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition
- Title(参考訳): embedded emotions -- 感情認識のための生音声入力から転送可能な特徴表現を学ぶデータ駆動アプローチ
- Authors: Dominik Schiller, Silvan Mertes, Elisabeth Andr\'e
- Abstract要約: 本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
- 参考スコア(独自算出の注目度): 1.4556324908347602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches to automatic emotion recognition are relying on the
application of handcrafted features. More recently however the advent of deep
learning enabled algorithms to learn meaningful representations of input data
automatically. In this paper, we investigate the applicability of transferring
knowledge learned from large text and audio corpora to the task of automatic
emotion recognition. To evaluate the practicability of our approach, we are
taking part in this year's Interspeech ComParE Elderly Emotion Sub-Challenge,
where the goal is to classify spoken narratives of elderly people with respect
to the emotion of the speaker. Our results show that the learned feature
representations can be effectively applied for classifying emotions from spoken
language. We found the performance of the features extracted from the audio
signal to be not as consistent as those that have been extracted from the
transcripts. While the acoustic features achieved best in class results on the
development set, when compared to the baseline systems, their performance
dropped considerably on the test set of the challenge. The features extracted
from the text form, however, are showing promising results on both sets and are
outperforming the official baseline by 5.7 percentage points unweighted average
recall.
- Abstract(参考訳): 感情の自動認識に対する従来のアプローチは、手作りの機能の適用に依存している。
しかし最近では、ディープラーニングの登場により、アルゴリズムは入力データの有意義な表現を自動的に学習できるようになった。
本稿では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性を検討する。
提案手法の実用性を評価するため,今年のインタースペッチでは,高齢者の感情について,高齢者の話し言葉の分類を目的とし,高齢者の感情比較を行った。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
その結果、音声信号から抽出された特徴の性能は、書き起こしから抽出された特徴と一致しないことがわかった。
音響的特徴は、開発セットでクラスで最高の結果を得たが、ベースラインシステムと比較すると、課題のテストセットで性能が大幅に低下した。
しかし、テキストフォームから抽出された特徴は、両方のセットで有望な結果を示しており、公式ベースラインを5.7%上回っている。
関連論文リスト
- Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Speaker Normalization for Self-supervised Speech Emotion Recognition [16.044405846513495]
特徴表現から話者特性を正規化しながら、音声感情認識タスクを学習する勾配に基づく逆学習フレームワークを提案する。
提案手法は話者に依存しない設定と話者に依存しない設定の両方において有効であることを示すとともに,難易度の高いIEMOCAPデータセットに対する新しい最先端結果を得る。
論文 参考訳(メタデータ) (2022-02-02T19:30:47Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。