論文の概要: EmoHRNet: High-Resolution Neural Network Based Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2510.06072v1
- Date: Tue, 07 Oct 2025 15:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.339806
- Title: EmoHRNet: High-Resolution Neural Network Based Speech Emotion Recognition
- Title(参考訳): EmoHRNet:高分解能ニューラルネットワークによる音声感情認識
- Authors: Akshay Muppidi, Martin Radfar,
- Abstract要約: EmoHRNetは、音声感情認識(SER)に適した高分解能ネットワーク(HRNet)の新しい適応である
HRNet構造は、初期層から最終層までの高解像度表現を維持するように設計されている。
EmoHRNetのユニークなアーキテクチャは、高い解像度の表現を維持し、音声信号から粒度と全体構造の両方の感情的手がかりをキャプチャする。
- 参考スコア(独自算出の注目度): 8.219188248930827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) is pivotal for enhancing human-machine interactions. This paper introduces "EmoHRNet", a novel adaptation of High-Resolution Networks (HRNet) tailored for SER. The HRNet structure is designed to maintain high-resolution representations from the initial to the final layers. By transforming audio samples into spectrograms, EmoHRNet leverages the HRNet architecture to extract high-level features. EmoHRNet's unique architecture maintains high-resolution representations throughout, capturing both granular and overarching emotional cues from speech signals. The model outperforms leading models, achieving accuracies of 92.45% on RAVDESS, 80.06% on IEMOCAP, and 92.77% on EMOVO. Thus, we show that EmoHRNet sets a new benchmark in the SER domain.
- Abstract(参考訳): 音声感情認識(SER)は、人間と機械の相互作用を高めるために重要である。
本稿では,SER に適した高分解能ネットワーク (HRNet) の新たな適応である "EmoHRNet" を紹介する。
HRNet構造は、初期層から最終層までの高解像度表現を維持するように設計されている。
オーディオサンプルをスペクトログラムに変換することで、EmoHRNetはHRNetアーキテクチャを活用して高レベルな特徴を抽出する。
EmoHRNetのユニークなアーキテクチャは、高い解像度の表現を維持し、音声信号から粒度と全体構造の両方の感情的手がかりをキャプチャする。
RAVDESSで92.45%、IEMOCAPで80.06%、EMOVOで92.77%のアキュラシーを達成した。
したがって、EmoHRNetはSERドメインに新しいベンチマークを設定する。
関連論文リスト
- Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
我々は,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)など,機械学習モデルのスイートを開発し,評価する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-08-26T19:08:54Z) - AbsoluteNet: A Deep Learning Neural Network to Classify Cerebral Hemodynamic Responses of Auditory Processing [7.243563999211656]
この研究は、fNIRSを使って聴覚イベント関連応答を分類するために設計された新しいディープラーニングアーキテクチャであるAbsoluteNetを紹介する。
このネットワークは、畳み込みとカスタマイズされたアクティベーション関数の原理に基づいて構築されている。
その結果、AbsoluteNetは既存のモデルを上回っ、87.0%の精度、84.8%の感度、89.2%の特異性に達した。
論文 参考訳(メタデータ) (2025-05-27T19:21:17Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - KXNet: A Model-Driven Deep Neural Network for Blind Super-Resolution [57.882146858582175]
我々は、ブラインドSISRのためのモデル駆動型ディープニューラルネットワークKXNetを提案する。
提案されたKXNetは、SISRタスクの根底にある固有の物理的メカニズムと完全に統合されている。
合成データおよび実データを用いた実験は,提案手法の精度と汎用性を良好に証明する。
論文 参考訳(メタデータ) (2022-09-21T12:22:50Z) - A Graph Isomorphism Network with Weighted Multiple Aggregators for
Speech Emotion Recognition [13.818143424337714]
音声感情認識(SER)は、人間とコンピュータの相互作用において欠かせない部分である。
We propose a SER network based on a Graph Isomorphism Network with Weighted Multiple Aggregators (WMA-GIN)。
論文 参考訳(メタデータ) (2022-07-03T02:58:42Z) - Neural Architecture Search for Speech Emotion Recognition [72.1966266171951]
本稿では,SERモデルの自動構成にニューラルアーキテクチャサーチ(NAS)技術を適用することを提案する。
NASはモデルパラメータサイズを維持しながらSER性能(54.89%から56.28%)を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-31T10:16:10Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks
for Emotion Recognition [1.1799563040751588]
本研究では,テキストに依存しない,話者に依存しない新しいSERアーキテクチャを提案する。
CapsNetの構造的特徴に基づいて,2チャネル長短期メモリ圧縮CapsNetアルゴリズムを提案する。
4つのデータセットとMFCCのデルタデルタを使って、DC-LSTM COMP-CapsNetは最先端のシステムをすべて超越している。
論文 参考訳(メタデータ) (2021-12-26T10:37:35Z) - Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks [1.776746672434207]
本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
論文 参考訳(メタデータ) (2021-10-31T04:06:07Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。