論文の概要: Distilled HuBERT for Mobile Speech Emotion Recognition: A Cross-Corpus Validation Study
- arxiv url: http://arxiv.org/abs/2512.23435v2
- Date: Wed, 31 Dec 2025 12:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 15:47:54.42512
- Title: Distilled HuBERT for Mobile Speech Emotion Recognition: A Cross-Corpus Validation Study
- Title(参考訳): モバイル音声感情認識のための蒸留Humbert : クロスコーパス検証による検証
- Authors: Saifelden M. Ismail,
- Abstract要約: 音声感情認識(SER)はモバイルアプリケーションにとって大きな可能性を秘めている。
本稿では, DistilHuBERTに基づく移動効率SERシステムを提案する。
RAVDESSのクロスコーパス評価では、行動的感情の劇場的性質は、特定の感情カテゴリーではなく、覚醒レベルによって予測される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Emotion Recognition (SER) has significant potential for mobile applications, yet deployment remains constrained by the computational demands of state-of-the-art transformer architectures. This paper presents a mobile-efficient SER system based on DistilHuBERT, a distilled and 8-bit quantized transformer that achieves approximately 92% parameter reduction compared to full-scale Wav2Vec 2.0 models while maintaining competitive accuracy. We conduct a rigorous 5-fold Leave-One-Session-Out (LOSO) cross-validation on the IEMOCAP dataset to ensure speaker independence, augmented with cross-corpus training on CREMA-D to enhance generalization. Cross-corpus training with CREMA-D yields a 1.2% improvement in Weighted Accuracy, a 1.4% gain in Macro F1-score, and a 32% reduction in cross-fold variance, with the Neutral class showing the most substantial benefit at 5.4% F1-score improvement. Our approach achieves an Unweighted Accuracy of 61.4% with a quantized model footprint of only 23 MB, representing approximately 91% of the Unweighted Accuracy of a full-scale baseline. Cross-corpus evaluation on RAVDESS reveals that the theatrical nature of acted emotions causes predictions to cluster by arousal level rather than by specific emotion categories - happiness predictions systematically bleed into anger predictions, and sadness predictions bleed into neutral predictions, due to acoustic saturation when actors prioritize clarity over subtlety. Despite this theatricality effect reducing overall RAVDESS accuracy to 46.64%, the model maintains robust arousal detection with 99% recall for anger, 55% recall for neutral, and 27% recall for sadness. These findings demonstrate a Pareto-optimal tradeoff between model size and accuracy, enabling practical affect recognition on resource-constrained mobile devices.
- Abstract(参考訳): 音声感情認識(SER)はモバイルアプリケーションにとって大きな可能性を秘めている。
本稿では,蒸留および8ビット量子化変換器であるDistilHuBERTに基づく移動効率SERシステムを提案する。
我々は,IEMOCAPデータセット上で厳密な5倍のLeave-One-Session-Out(LOSO)クロスバリデーションを行い,話者独立性を確保し,CREMA-D上でのクロスコーパストレーニングを併用して一般化を強化する。
CREMA-Dを使用したクロスコーパストレーニングでは、重み付け精度が1.2%向上し、マクロF1スコアが1.4%上昇し、クロスフォールド分散が32%減少し、ニュートラルクラスは5.4%のF1スコア改善で最も大きな恩恵を受けている。
提案手法は,23MBの量子化モデルフットプリントで61.4%の非重み付き精度を実現し,フルスケールベースラインの非重み付き精度の約91%を占める。
RAVDESSのクロスコーパス評価では、演技された感情の劇場的性質は、特定の感情カテゴリーではなく、覚醒レベルでの予測を引き起こすことが明らかとなった。
この劇場効果により全RAVDESSの精度は46.64%に低下するが、怒りの99%のリコール、中立の55%のリコール、悲しみの27%のリコールで堅牢な覚醒検出を維持している。
これらの結果から, モデルサイズと精度のパレート最適トレードオフが示され, 資源制約されたモバイルデバイス上での実用的な影響認識が可能となった。
関連論文リスト
- Efficient Adversarial Malware Defense via Trust-Based Raw Override and Confidence-Adaptive Bit-Depth Reduction [0.0]
敵防衛の最近の進歩は強い堅牢性の向上を示している。
4倍から22倍までの計算オーバーヘッドは、数百万のサンプルを毎日処理するプロダクションシステムにとって大きな課題となる。
信頼適応型TROと信頼適応型ビット深度削減を組み合わせた新しいフレームワークを提案する。
提案手法は1.76倍の計算オーバーヘッドを達成し,最先端のスムージングディフェンスよりも2.3倍改善した。
論文 参考訳(メタデータ) (2025-11-16T23:21:44Z) - EmoAugNet: A Signal-Augmented Hybrid CNN-LSTM Framework for Speech Emotion Recognition [0.0]
EmoAugNetは1次元畳み込みニューラルネットワーク(1D-CNN)で長期記憶層を組み込んだハイブリッドディープラーニングフレームワークで、信頼性の高い音声感情認識(SER)を実現する。
包括的音声データ拡張戦略を用いて,雑音付加,ピッチシフト,時間伸張といった従来の手法と,一般化と過度適合の低減を目的とした新しい組み合わせ型拡張パイプラインを併用した。
我々のReLUアクティベーションモデルでは、重み付け精度95.78%、未重み付け精度92.52%、ELUアクティベーションは1。
論文 参考訳(メタデータ) (2025-08-06T16:28:27Z) - Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models [1.7272658301768147]
MoE-MLA-RoPEは、Mixture of Experts (MoE)とMulti-head Latent Attention (MLA)とRotary Position Embeddings (RoPE)を組み合わせた、効率的な言語モデリングのための新しいアーキテクチャの組み合わせである。
提案手法は,3つの重要なイノベーションを通じて,モデル容量と計算効率の基本的なトレードオフに対処する。
論文 参考訳(メタデータ) (2025-08-02T08:33:30Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。