Fugu-MT 論文翻訳(概要): Speech & Song Emotion Recognition Using Multilayer Perceptron and Standard Vector Machine

論文の概要: Speech & Song Emotion Recognition Using Multilayer Perceptron and Standard Vector Machine

arxiv url: http://arxiv.org/abs/2105.09406v1
Date: Wed, 19 May 2021 21:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 23:27:36.335954
Title: Speech & Song Emotion Recognition Using Multilayer Perceptron and Standard Vector Machine
Title（参考訳）: 多層パーセプトロンと標準ベクトルマシンを用いた音声と歌の感情認識
Authors: Behzad Javaheri
Abstract要約: RAVDESSデータセットの音声と歌のチャンネルを用いて,SVMと感情認識の性能を比較した。最適化されたSVMは、75%と比較して82の精度でパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Herein, we have compared the performance of SVM and MLP in emotion recognition using speech and song channels of the RAVDESS dataset. We have undertaken a journey to extract various audio features, identify optimal scaling strategy and hyperparameter for our models. To increase sample size, we have performed audio data augmentation and addressed data imbalance using SMOTE. Our data indicate that optimised SVM outperforms MLP with an accuracy of 82 compared to 75%. Following data augmentation, the performance of both algorithms was identical at ~79%, however, overfitting was evident for the SVM. Our final exploration indicated that the performance of both SVM and MLP were similar in which both resulted in lower accuracy for the speech channel compared to the song channel. Our findings suggest that both SVM and MLP are powerful classifiers for emotion recognition in a vocal-dependent manner.
Abstract（参考訳）: 本稿では、RAVDESSデータセットの音声と歌のチャンネルを用いた感情認識におけるSVMとMLPの性能を比較した。我々は、様々なオーディオ特徴を抽出し、最適なスケーリング戦略とハイパーパラメータを同定する旅をしてきた。サンプルサイズを増やすため,SMOTEを用いて音声データ拡張とアドレスデータ不均衡を行った。以上の結果から,最適化SVMはMLPの精度を75%と比較すると,82。データ拡張後、両方のアルゴリズムのパフォーマンスは ~79% で同じであったが、SVM には過度な適合性があることは明らかであった。最終調査の結果,svmとmlpの性能はともに,songチャネルに比べて音声チャネルの精度が低かった。以上の結果から,SVM と MLP は声質に依存した感情認識のための強力な分類法であることが示唆された。

関連論文リスト

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。 AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文参考訳（メタデータ） (2025-03-09T00:02:10Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文参考訳（メタデータ） (2024-12-14T15:11:42Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。 SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文参考訳（メタデータ） (2023-05-30T13:07:33Z)
Emotional Expression Detection in Spoken Language Employing Machine Learning Algorithms [0.0]
人間の声の特徴は、ピッチ、音色、大声、声調に分類される。多くの出来事において、人間が話すときの異なる声質で感情を表現することが観察されている。本研究の主な目的は、スペクトル記述子、周期性、調和性といったいくつかの機能を用いて、人間の異なる感情を認識することである。
論文参考訳（メタデータ） (2023-04-20T17:57:08Z)
A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit [2.969929079464237]
SpecAugmentは、元のデータセット上での HuBERT と wav2vec のパフォーマンスをわずかに改善する。また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。
論文参考訳（メタデータ） (2023-02-27T20:46:36Z)
SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-11-02T07:13:30Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。 mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文参考訳（メタデータ） (2021-02-25T03:40:43Z)
A Hybrid MLP-SVM Model for Classification using Spatial-Spectral Features on Hyper-Spectral Images [1.648438955311779]
多層パーセプトロン(MLP)とサポートベクターマシン(SVM)を用いたハイブリッド分類器(MLP-SVM)を作成する。ニューラルネットオークの最後の隠された層からの出力はSVMへの入力となり、最終的に様々な望ましいクラスに分類される。提案手法はデータセットの検査精度を 93.22%, 96.87%, 93.81% に対して86.97%, 88.58%, 88.85%, 91.61%, 96.20%, 90.68% に大幅に向上させた。
論文参考訳（メタデータ） (2021-01-01T11:47:23Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。