論文の概要: Emotion Detection in Speech Using Lightweight and Transformer-Based Models: A Comparative and Ablation Study
- arxiv url: http://arxiv.org/abs/2511.00402v1
- Date: Sat, 01 Nov 2025 05:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.755987
- Title: Emotion Detection in Speech Using Lightweight and Transformer-Based Models: A Comparative and Ablation Study
- Title(参考訳): 軽量・変圧器モデルを用いた音声の感情検出:比較・アブレーションによる検討
- Authors: Lucky Onyekwelu-Udoka, Md Shafiqul Islam, Md Shahedul Hasan,
- Abstract要約: 本稿では,軽量トランスモデルであるDistilHuBERTとPaSSTの比較分析を行う。
MFCC機能を用いた従来のCNN-LSTMベースラインモデルと比較した。
DistilHuBERTは、非常に小さなモデルサイズ(0.02MB)を維持しながら、優れた精度(70.64%)とF1スコア(70.36%)を示す。
- 参考スコア(独自算出の注目度): 0.41292255339309664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition from speech plays a vital role in the development of empathetic human-computer interaction systems. This paper presents a comparative analysis of lightweight transformer-based models, DistilHuBERT and PaSST, by classifying six core emotions from the CREMA-D dataset. We benchmark their performance against a traditional CNN-LSTM baseline model using MFCC features. DistilHuBERT demonstrates superior accuracy (70.64%) and F1 score (70.36%) while maintaining an exceptionally small model size (0.02 MB), outperforming both PaSST and the baseline. Furthermore, we conducted an ablation study on three variants of the PaSST, Linear, MLP, and Attentive Pooling heads, to understand the effect of classification head architecture on model performance. Our results indicate that PaSST with an MLP head yields the best performance among its variants but still falls short of DistilHuBERT. Among the emotion classes, angry is consistently the most accurately detected, while disgust remains the most challenging. These findings suggest that lightweight transformers like DistilHuBERT offer a compelling solution for real-time speech emotion recognition on edge devices. The code is available at: https://github.com/luckymaduabuchi/Emotion-detection-.
- Abstract(参考訳): 音声からの感情認識は、共感的人間とコンピュータの相互作用システムの開発において重要な役割を担っている。
本稿では、CREMA-Dデータセットから6つのコア感情を分類することにより、軽量トランスフォーマーベースモデルであるDistilHuBERTとPaSSTの比較分析を行う。
MFCC機能を用いた従来のCNN-LSTMベースラインモデルと比較した。
DistilHuBERTは優れた精度(70.64%)とF1スコア(70.36%)を示し、非常に小さなモデルサイズ(0.02MB)を維持し、PaSSTとベースラインの両方を上回っている。
さらに,PaSST,Linear,MLP,Attentive Poolingの3つの変種について,分類ヘッド構造がモデル性能に及ぼす影響について検討した。
以上の結果から,MPPヘッドを持つ PaSST は変種の中では最高の性能を示すが,それでも DistilHuBERT には劣っていることが示唆された。
感情のクラスの中で、怒りは一貫して最も正確に検知されるが、嫌悪感は最も難しい。
これらの結果は、DistilHuBERTのような軽量トランスフォーマーが、エッジデバイス上でリアルタイムの音声感情認識に魅力的なソリューションを提供することを示唆している。
コードは、https://github.com/luckymaduabuchi/Emotion-detection-で入手できる。
関連論文リスト
- A Comparative Evaluation of Large Language Models for Persian Sentiment Analysis and Emotion Detection in Social Media Texts [2.820011731460364]
本研究では,ペルシャ語のソーシャルメディアテキストにおける感情分析と感情検出のための4つの大規模言語モデル(LLM)の比較評価を行った。
その結果、全てのモデルの性能が許容できるレベルに達しており、最良の3つのモデルの統計的比較では、それらの間に有意な差は見られなかった。
その結果、感情検出タスクは感情分析タスクと比較して全てのモデルにおいて困難であり、誤分類パターンはペルシア語のテキストにおけるいくつかの課題を表わす可能性があることが示唆された。
論文 参考訳(メタデータ) (2025-09-18T12:59:07Z) - Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets [0.0]
本研究では,COCO画像コーパスの3クラスサブセットを用いた人間の認識について検討する。
バイナリビジョン変換器(ViT)は90%の平均テスト精度を達成した。
論文 参考訳(メタデータ) (2025-06-13T11:16:50Z) - Emotion Detection in Reddit: Comparative Study of Machine Learning and Deep Learning Techniques [0.0]
本研究は,GoEmotionsデータセットを利用したテキストによる感情検出に焦点を当てた。
このタスクには、6つの機械学習モデル、3つのアンサンブルモデル、Long Short-Term Memory(LSTM)モデルなど、さまざまなモデルを使用しました。
結果は、Stacking分類器が他のモデルよりも精度と性能が優れていることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:28:25Z) - Improving the Generalizability of Text-Based Emotion Detection by
Leveraging Transformers with Psycholinguistic Features [27.799032561722893]
本稿では,両方向長短期記憶(BiLSTM)ネットワークと変換器モデル(BERT,RoBERTa)を併用したテキストベースの感情検出手法を提案する。
提案したハイブリッドモデルでは,標準的なトランスフォーマーベースアプローチと比較して,分布外データへの一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2022-12-19T13:58:48Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。