論文の概要: A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2008.02863v2
- Date: Sat, 15 Aug 2020 18:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 08:09:26.137411
- Title: A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition
- Title(参考訳): 自動音声認識による音声感情認識のための伝達学習法
- Authors: Sitong Zhou and Homayoon Beigi
- Abstract要約: 本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a transfer learning method in speech emotion recognition
based on a Time-Delay Neural Network (TDNN) architecture. A major challenge in
the current speech-based emotion detection research is data scarcity. The
proposed method resolves this problem by applying transfer learning techniques
in order to leverage data from the automatic speech recognition (ASR) task for
which ample data is available. Our experiments also show the advantage of
speaker-class adaptation modeling techniques by adopting identity-vector
(i-vector) based features in addition to standard Mel-Frequency Cepstral
Coefficient (MFCC) features.[1] We show the transfer learning models
significantly outperform the other methods without pretraining on ASR. The
experiments performed on the publicly available IEMOCAP dataset which provides
12 hours of motional speech data. The transfer learning was initialized by
using the Ted-Lium v.2 speech dataset providing 207 hours of audio with the
corresponding transcripts. We achieve the highest significantly higher accuracy
when compared to state-of-the-art, using five-fold cross validation. Using only
speech, we obtain an accuracy 71.7% for anger, excitement, sadness, and
neutrality emotion content.
- Abstract(参考訳): 本稿では,tdnn(time-delay neural network)アーキテクチャに基づく音声感情認識におけるトランスファー学習手法を提案する。
現在の音声に基づく感情検出研究における大きな課題は、データ不足である。
提案手法は,十分なデータが得られる自動音声認識(ASR)タスクからのデータを活用するために,転送学習手法を適用してこの問題を解決する。
本実験は,Mel-Frequency Cepstral Coefficient(MFCC)機能に加えて,i-vector(i-vector)ベースの特徴を取り入れた話者適応モデル手法の利点を示す。
トランスファー学習モデルは,asrをプリトレーニングすることなく,他の手法を大きく上回っている。
公開されているIEMOCAPデータセットで実施された実験は、12時間の音声データを提供する。
転送学習は、Ted-Lium v.2音声データセットを用いて、対応する書き起こしと207時間のオーディオを提供する。
5倍のクロスバリデーションを用いて,最先端と比較して高い精度を実現する。
音声のみを用いて、怒り、興奮、悲しみ、中立感の感情内容の精度71.7%を得る。
関連論文リスト
- A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning [0.0]
本稿では,教師付きコントラスト学習に基づくクロスコーパス音声認識手法を提案する。
まず,複数の音声感情データセットに対する教師付きコントラスト学習を用いて,自己教師付き音声表現モデルを微調整する。
実験の結果、WavLMベースのモデルはIEMOCAPデータセットで77.41%、CAIAデータセットで96.49%の未重み付き精度(UA)を達成した。
論文 参考訳(メタデータ) (2024-11-25T07:03:31Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Sentiment-Aware Automatic Speech Recognition pre-training for enhanced
Speech Emotion Recognition [11.760166084942908]
音声感情認識(SER)のためのマルチタスク事前学習手法を提案する。
自動音声認識(ASR)と感情分類タスクでSERモデルを同時に訓練する。
我々は、公開されているデータに基づいて訓練されたテキスト・トゥ・センチメント・モデルを用いて感情分類のターゲットを生成する。
論文 参考訳(メタデータ) (2022-01-27T22:20:28Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。