論文の概要: CopyPaste: An Augmentation Method for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2010.14602v2
- Date: Thu, 11 Feb 2021 16:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:26:03.953331
- Title: CopyPaste: An Augmentation Method for Speech Emotion Recognition
- Title(参考訳): CopyPaste:音声感情認識のための拡張手法
- Authors: Raghavendra Pappagari, Jes\'us Villalba, Piotr \.Zelasko, Laureano
Moro-Velazquez, Najim Dehak
- Abstract要約: CopyPasteは、知覚的に動機づけられた、音声の感情認識のための新しい拡張手順である。
3つのCopyPasteスキームを2つのディープラーニングモデルでテストする。
ノイズのあるテストセットの実験では、CopyPasteはノイズの多いテスト条件でも有効であることが示唆された。
- 参考スコア(独自算出の注目度): 36.61242392144022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a widely used strategy for training robust machine
learning models. It partially alleviates the problem of limited data for tasks
like speech emotion recognition (SER), where collecting data is expensive and
challenging. This study proposes CopyPaste, a perceptually motivated novel
augmentation procedure for SER. Assuming that the presence of emotions other
than neutral dictates a speaker's overall perceived emotion in a recording,
concatenation of an emotional (emotion E) and a neutral utterance can still be
labeled with emotion E. We hypothesize that SER performance can be improved
using these concatenated utterances in model training. To verify this, three
CopyPaste schemes are tested on two deep learning models: one trained
independently and another using transfer learning from an x-vector model, a
speaker recognition model. We observed that all three CopyPaste schemes improve
SER performance on all the three datasets considered: MSP-Podcast, Crema-D, and
IEMOCAP. Additionally, CopyPaste performs better than noise augmentation and,
using them together improves the SER performance further. Our experiments on
noisy test sets suggested that CopyPaste is effective even in noisy test
conditions.
- Abstract(参考訳): データ拡張は、堅牢な機械学習モデルのトレーニングに広く使われている戦略である。
音声感情認識(SER)のようなタスクにおいて、データの収集が高価で困難であるような、限られたデータの問題を部分的に緩和する。
本研究は,認知に動機づけられたSERの新規増強手順であるCopyPasteを提案する。
ニュートラル以外の感情の存在が、録音における話者の全体的な知覚的感情を規定していると仮定すると、感情(感情E)と中立的発話の連結は、なおも感情Eとラベル付けできる。
これを検証するために、3つのコピーペーストスキームが2つのディープラーニングモデルでテストされている。
MSP-Podcast, Crema-D, IEMOCAPの3つのデータセットにおいて, 3つのCopyPasteスキームがSER性能を改善した。
さらに、CopyPasteはノイズ増強よりもパフォーマンスが良く、それらを併用することでSERのパフォーマンスをさらに向上する。
ノイズテストセットに関する実験から, 騒音テスト条件においてもコピーペーストが有効であることが示唆された。
関連論文リスト
- A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - x-vectors meet emotions: A study on dependencies between emotion and
speaker recognition [38.181055783134006]
話者認識のために学習した知識は、伝達学習を通じて感情認識に再利用可能であることを示す。
感情認識では,単純な線形モデルを用いることで,事前学習モデルから抽出した特徴の良好な性能が得られることを示す。
本稿では,感情が話者の検証に及ぼす影響について述べる。
論文 参考訳(メタデータ) (2020-02-12T15:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。