論文の概要: Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods
- arxiv url: http://arxiv.org/abs/2602.06000v1
- Date: Thu, 05 Feb 2026 18:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.133989
- Title: Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods
- Title(参考訳): OpenAIのwhisper表現と注意ポーリングを利用した音声感情認識
- Authors: Ali Shendabadi, Parnia Izadirad, Mostafa Salehi, Mahmoud Bijankhan,
- Abstract要約: 音声感情認識(SER)の研究は、標準と十分に大きなデータセットが不足しているため、制限に直面している。
近年の研究では、SERのような下流タスクの特徴を抽出するために、事前学習モデルを活用している。
本研究では、事前学習されたASRシステムであるWhisperの音声感情認識能力について検討する。
- 参考スコア(独自算出の注目度): 0.15749416770494704
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Emotion Recognition (SER) research has faced limitations due to the lack of standard and sufficiently large datasets. Recent studies have leveraged pre-trained models to extract features for downstream tasks such as SER. This work explores the capabilities of Whisper, a pre-trained ASR system, in speech emotion recognition by proposing two attention-based pooling methods, Multi-head Attentive Average Pooling and QKV Pooling, designed to efficiently reduce the dimensionality of Whisper representations while preserving emotional features. We experiment on English and Persian, using the IEMOCAP and ShEMO datasets respectively, with Whisper Tiny and Small. Our multi-head QKV architecture achieves state-of-the-art results on the ShEMO dataset, with a 2.47% improvement in unweighted accuracy. We further compare the performance of different Whisper encoder layers and find that intermediate layers often perform better for SER on the Persian dataset, providing a lightweight and efficient alternative to much larger models such as HuBERT X-Large. Our findings highlight the potential of Whisper as a representation extractor for SER and demonstrate the effectiveness of attention-based pooling for dimension reduction.
- Abstract(参考訳): 音声感情認識(SER)の研究は、標準と十分に大きなデータセットが不足しているため、制限に直面している。
近年の研究では、SERのような下流タスクの特徴を抽出するために、事前学習モデルを活用している。
本研究は,情緒的特徴を保ちつつ,Whisper表現の次元を効率よく減少させるように設計された2つの注意型プール手法であるMulti-head Attentive Average PoolingとQKV Poolingを提案することで,事前学習されたASRシステムであるWhisperの音声認識能力について検討する。
We experiment on English and Persian, using the IEMOCAP and ShEMO datasets, with Whisper Tiny and Small。
我々のマルチヘッドQKVアーキテクチャは、ShEMOデータセットの最先端結果を実現し、未重み付き精度が2.47%向上した。
さらに、異なるWhisperエンコーダ層のパフォーマンスを比較し、中間層はペルシャデータセット上でSERよりもよく機能し、HuBERT X-Largeのようなより大規模なモデルに対する軽量で効率的な代替手段を提供する。
本研究は,SERの表現抽出器としてのWhisperの可能性を浮き彫りにして,アテンションベースプーリングの有効性を実証するものである。
関連論文リスト
- Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing [33.36615989947073]
拡散型大言語モデルLLaDAを用いた音声認識(ASR)に関する実験的検討を行った。
ランダムマスキング,低信頼マスキング,半自己回帰戦略について検討し,Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
論文 参考訳(メタデータ) (2025-09-20T10:48:06Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。