論文の概要: Speech & Song Emotion Recognition Using Multilayer Perceptron and
Standard Vector Machine
- arxiv url: http://arxiv.org/abs/2105.09406v1
- Date: Wed, 19 May 2021 21:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 23:27:36.335954
- Title: Speech & Song Emotion Recognition Using Multilayer Perceptron and
Standard Vector Machine
- Title(参考訳): 多層パーセプトロンと標準ベクトルマシンを用いた音声と歌の感情認識
- Authors: Behzad Javaheri
- Abstract要約: RAVDESSデータセットの音声と歌のチャンネルを用いて,SVMと感情認識の性能を比較した。
最適化されたSVMは、75%と比較して82の精度でパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Herein, we have compared the performance of SVM and MLP in emotion
recognition using speech and song channels of the RAVDESS dataset. We have
undertaken a journey to extract various audio features, identify optimal
scaling strategy and hyperparameter for our models. To increase sample size, we
have performed audio data augmentation and addressed data imbalance using
SMOTE. Our data indicate that optimised SVM outperforms MLP with an accuracy of
82 compared to 75%. Following data augmentation, the performance of both
algorithms was identical at ~79%, however, overfitting was evident for the SVM.
Our final exploration indicated that the performance of both SVM and MLP were
similar in which both resulted in lower accuracy for the speech channel
compared to the song channel. Our findings suggest that both SVM and MLP are
powerful classifiers for emotion recognition in a vocal-dependent manner.
- Abstract(参考訳): 本稿では、RAVDESSデータセットの音声と歌のチャンネルを用いた感情認識におけるSVMとMLPの性能を比較した。
我々は、様々なオーディオ特徴を抽出し、最適なスケーリング戦略とハイパーパラメータを同定する旅をしてきた。
サンプルサイズを増やすため,SMOTEを用いて音声データ拡張とアドレスデータ不均衡を行った。
以上の結果から,最適化SVMはMLPの精度を75%と比較すると,82。
データ拡張後、両方のアルゴリズムのパフォーマンスは ~79% で同じであったが、SVM には過度な適合性があることは明らかであった。
最終調査の結果,svmとmlpの性能はともに,songチャネルに比べて音声チャネルの精度が低かった。
以上の結果から,SVM と MLP は声質に依存した感情認識のための強力な分類法であることが示唆された。
関連論文リスト
- Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Emotional Expression Detection in Spoken Language Employing Machine
Learning Algorithms [0.0]
人間の声の特徴は、ピッチ、音色、大声、声調に分類される。
多くの出来事において、人間が話すときの異なる声質で感情を表現することが観察されている。
本研究の主な目的は、スペクトル記述子、周期性、調和性といったいくつかの機能を用いて、人間の異なる感情を認識することである。
論文 参考訳(メタデータ) (2023-04-20T17:57:08Z) - A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit [2.1485350418225244]
SpecAugmentは、元のデータセット上での HuBERT と wav2vec のパフォーマンスをわずかに改善する。
また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-27T20:46:36Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - A Hybrid MLP-SVM Model for Classification using Spatial-Spectral
Features on Hyper-Spectral Images [1.648438955311779]
多層パーセプトロン(MLP)とサポートベクターマシン(SVM)を用いたハイブリッド分類器(MLP-SVM)を作成する。
ニューラルネットオークの最後の隠された層からの出力はSVMへの入力となり、最終的に様々な望ましいクラスに分類される。
提案手法はデータセットの検査精度を 93.22%, 96.87%, 93.81% に対して86.97%, 88.58%, 88.85%, 91.61%, 96.20%, 90.68% に大幅に向上させた。
論文 参考訳(メタデータ) (2021-01-01T11:47:23Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。