論文の概要: Speech & Song Emotion Recognition Using Multilayer Perceptron and
Standard Vector Machine
- arxiv url: http://arxiv.org/abs/2105.09406v1
- Date: Wed, 19 May 2021 21:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 23:27:36.335954
- Title: Speech & Song Emotion Recognition Using Multilayer Perceptron and
Standard Vector Machine
- Title(参考訳): 多層パーセプトロンと標準ベクトルマシンを用いた音声と歌の感情認識
- Authors: Behzad Javaheri
- Abstract要約: RAVDESSデータセットの音声と歌のチャンネルを用いて,SVMと感情認識の性能を比較した。
最適化されたSVMは、75%と比較して82の精度でパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Herein, we have compared the performance of SVM and MLP in emotion
recognition using speech and song channels of the RAVDESS dataset. We have
undertaken a journey to extract various audio features, identify optimal
scaling strategy and hyperparameter for our models. To increase sample size, we
have performed audio data augmentation and addressed data imbalance using
SMOTE. Our data indicate that optimised SVM outperforms MLP with an accuracy of
82 compared to 75%. Following data augmentation, the performance of both
algorithms was identical at ~79%, however, overfitting was evident for the SVM.
Our final exploration indicated that the performance of both SVM and MLP were
similar in which both resulted in lower accuracy for the speech channel
compared to the song channel. Our findings suggest that both SVM and MLP are
powerful classifiers for emotion recognition in a vocal-dependent manner.
- Abstract(参考訳): 本稿では、RAVDESSデータセットの音声と歌のチャンネルを用いた感情認識におけるSVMとMLPの性能を比較した。
我々は、様々なオーディオ特徴を抽出し、最適なスケーリング戦略とハイパーパラメータを同定する旅をしてきた。
サンプルサイズを増やすため,SMOTEを用いて音声データ拡張とアドレスデータ不均衡を行った。
以上の結果から,最適化SVMはMLPの精度を75%と比較すると,82。
データ拡張後、両方のアルゴリズムのパフォーマンスは ~79% で同じであったが、SVM には過度な適合性があることは明らかであった。
最終調査の結果,svmとmlpの性能はともに,songチャネルに比べて音声チャネルの精度が低かった。
以上の結果から,SVM と MLP は声質に依存した感情認識のための強力な分類法であることが示唆された。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Emotional Expression Detection in Spoken Language Employing Machine
Learning Algorithms [0.0]
人間の声の特徴は、ピッチ、音色、大声、声調に分類される。
多くの出来事において、人間が話すときの異なる声質で感情を表現することが観察されている。
本研究の主な目的は、スペクトル記述子、周期性、調和性といったいくつかの機能を用いて、人間の異なる感情を認識することである。
論文 参考訳(メタデータ) (2023-04-20T17:57:08Z) - A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit [2.969929079464237]
SpecAugmentは、元のデータセット上での HuBERT と wav2vec のパフォーマンスをわずかに改善する。
また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-27T20:46:36Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - A Hybrid MLP-SVM Model for Classification using Spatial-Spectral
Features on Hyper-Spectral Images [1.648438955311779]
多層パーセプトロン(MLP)とサポートベクターマシン(SVM)を用いたハイブリッド分類器(MLP-SVM)を作成する。
ニューラルネットオークの最後の隠された層からの出力はSVMへの入力となり、最終的に様々な望ましいクラスに分類される。
提案手法はデータセットの検査精度を 93.22%, 96.87%, 93.81% に対して86.97%, 88.58%, 88.85%, 91.61%, 96.20%, 90.68% に大幅に向上させた。
論文 参考訳(メタデータ) (2021-01-01T11:47:23Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。