論文の概要: Emotional Speech Recognition with Pre-trained Deep Visual Models
- arxiv url: http://arxiv.org/abs/2204.03561v1
- Date: Wed, 6 Apr 2022 11:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 09:10:53.387351
- Title: Emotional Speech Recognition with Pre-trained Deep Visual Models
- Title(参考訳): 深部視覚モデルを用いた感情音声認識
- Authors: Waleed Ragheb, Mehdi Mirzapour, Ali Delfardi, H\'el\`ene Jacquenet,
Lawrence Carbon
- Abstract要約: 我々は、事前訓練されたコンピュータビジョン深層モデルの伝達学習機能を用いて、音声タスクにおける感情認識の委任を行う。
実験では,事前学習したVGG-16モデルを用いて,話者非依存感情認識のためのBerlin EMO-DBデータセットの全体的な方法論を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose a new methodology for emotional speech recognition
using visual deep neural network models. We employ the transfer learning
capabilities of the pre-trained computer vision deep models to have a mandate
for the emotion recognition in speech task. In order to achieve that, we
propose to use a composite set of acoustic features and a procedure to convert
them into images. Besides, we present a training paradigm for these models
taking into consideration the different characteristics between acoustic-based
images and regular ones. In our experiments, we use the pre-trained VGG-16
model and test the overall methodology on the Berlin EMO-DB dataset for
speaker-independent emotion recognition. We evaluate the proposed model on the
full list of the seven emotions and the results set a new state-of-the-art.
- Abstract(参考訳): 本稿では,視覚深層ニューラルネットワークモデルを用いた感情音声認識のための新しい手法を提案する。
我々は,事前学習したコンピュータビジョン深層モデルの伝達学習能力を用いて,音声タスクにおける感情認識の義務付けを行う。
これを実現するために,音響特徴の複合セットと,それらを画像に変換する手順を提案する。
さらに,これらのモデルに対して,音響画像と正規画像の異なる特徴を考慮したトレーニングパラダイムを提案する。
実験では,事前学習したVGG-16モデルを用いて,話者非依存感情認識のためのBerlin EMO-DBデータセットの全体的な方法論を検証した。
提案モデルを7つの感情の完全なリスト上で評価し,その結果を新たな最先端に設定した。
関連論文リスト
- Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-16T15:49:15Z) - Meta Transfer Learning for Emotion Recognition [42.61707533351803]
本研究では、ある視覚的/聴覚的感情領域から学習した感情知識を、別の視覚的/聴覚的感情領域に伝達できるPathNetに基づく伝達学習手法を提案する。
提案システムは感情認識の性能を向上し,最近提案された微調整/事前学習モデルに基づく伝達学習手法よりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2020-06-23T00:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。