論文の概要: DeepEmoNet: Building Machine Learning Models for Automatic Emotion Recognition in Human Speeches
- arxiv url: http://arxiv.org/abs/2509.00025v1
- Date: Wed, 20 Aug 2025 08:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.248048
- Title: DeepEmoNet: Building Machine Learning Models for Automatic Emotion Recognition in Human Speeches
- Title(参考訳): DeepEmoNet:人間の音声における感情認識のための機械学習モデルの構築
- Authors: Tai Vu,
- Abstract要約: 人間のスピーチで感情を分類するために、いくつかの機械学習モデルを構築します。
比較的小さなデータセットで適切なパフォーマンスを達成するために、モデルを効率的にトレーニングしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) has been a challenging problem in spoken language processing research, because it is unclear how human emotions are connected to various components of sounds such as pitch, loudness, and energy. This paper aims to tackle this problem using machine learning. Particularly, we built several machine learning models using SVMs, LTSMs, and CNNs to classify emotions in human speeches. In addition, by leveraging transfer learning and data augmentation, we efficiently trained our models to attain decent performances on a relatively small dataset. Our best model was a ResNet34 network, which achieved an accuracy of $66.7\%$ and an F1 score of $0.631$.
- Abstract(参考訳): 音声による感情認識 (SER) は, 音声処理研究において, 人間の感情が音高, 声高, エネルギーなどの様々な成分とどのように結びついているかが不明であるため, 難しい問題となっている。
本稿では,機械学習を用いてこの問題に対処することを目的とする。
特に,SVM,LTSM,CNNを用いて,人間の発話中の感情を分類する機械学習モデルを構築した。
さらに、転送学習とデータ拡張を活用して、比較的小さなデータセット上で適切なパフォーマンスを達成するために、モデルを効率的に訓練しました。
我々の最良のモデルはResNet34ネットワークであり、精度は6.7 %$、F1スコアは0.631$に達した。
関連論文リスト
- Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
我々は,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)など,機械学習モデルのスイートを開発し,評価する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-08-26T19:08:54Z) - Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - AHD ConvNet for Speech Emotion Classification [0.0]
本稿では,一般的なCREMA-Dデータセットにおいて,与えられたwav形式の音声ノートから感情を学習するためのデータポイントを用いた新しいメルスペクトル学習手法を提案する。
感情音声認識の課題に対処するために用いられた他のアプローチと比較して、トレーニング時間が短縮された。
論文 参考訳(メタデータ) (2022-06-10T11:57:28Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。