論文の概要: Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection
- arxiv url: http://arxiv.org/abs/2606.03359v1
- Date: Tue, 02 Jun 2026 09:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.892468
- Title: Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection
- Title(参考訳): 残差接続型LSTMネットワークを用いた音声感情認識
- Authors: Daniil Krasnoproshin, Maxim Vashkevich,
- Abstract要約: 音声の感情認識は、現代の人間とコンピュータのインタラクションシステムにおいて重要な要素である。
本稿では,残差接続をソフトアテンションと統合した軽量アーキテクチャであるResLSTM-SAを提案する。
最高の性能を持つ変種(ResLSTM-SA-h64)は最大で0.6517のUARを達成し、46.8kの訓練可能なパラメータしか持たない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech emotion recognition is an important component of modern human-computer interaction systems. However, many state-of-the-art approaches rely on large pretrained models with high computational and memory requirements, limiting their applicability. This paper proposes ResLSTM-SA, a lightweight architecture that integrates residual connections with soft attention within an LSTM-based framework. Evaluated on the RAVDESS dataset under strict speaker-independent partitioning, the proposed model outperforms conventional attention-based LSTM baselines and several previously reported CNN- and hybrid CNN-LSTM architectures in terms of unweighted average recall (UAR). The best-performing variant (ResLSTM-SA-h64) achieves a maximum UAR of 0.6517 with only 46.8k trainable parameters, delivering competitive accuracy with three orders of magnitude fewer parameters than large-scale self-supervised alternatives, thereby enabling efficient deployment on edge devices and real-time voice assistants. The source code is available at https://github.com/Mak-Sim/ResLSTM-SER.
- Abstract(参考訳): 音声の感情認識は、現代の人間とコンピュータのインタラクションシステムにおいて重要な要素である。
しかし、最先端の多くのアプローチは、高い計算とメモリ要求を持つ大きな事前訓練されたモデルに依存し、適用性を制限する。
本稿では,LSTM ベースのフレームワーク内に残差接続とソフトアテンションを統合した軽量アーキテクチャ ResLSTM-SA を提案する。
厳密な話者独立分割下でのRAVDESSデータセットに基づいて評価し、提案モデルは従来の注意に基づくLSTMベースラインと、未重み付き平均リコール(UAR)の観点から、以前報告されたCNNおよびハイブリッドCNN-LSTMアーキテクチャより優れている。
最高の性能を持つ変種(ResLSTM-SA-h64)は、46.8kのトレーニング可能なパラメータしか持たない最大で0.6517のUARを実現し、大規模自己監督型よりも3桁少ないパラメータで競合精度を実現し、エッジデバイスやリアルタイム音声アシスタントへの効率的な展開を可能にした。
ソースコードはhttps://github.com/Mak-Sim/ResLSTM-SERで入手できる。
関連論文リスト
- Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - AF-MAT: Aspect-aware Flip-and-Fuse xLSTM for Aspect-based Sentiment Analysis [0.6498237940960344]
我々は,xLSTMの強みを利用するフレームワークであるAF-MAT(Aspect-aware Flip-and-Fuse xLSTM)を紹介する。
AF-MATは、専用アスペクトゲートを導入するAspect-awareMatrix LSTMメカニズムを備えており、メモリ更新中にターゲットアスペクトに意味のあるトークンを選択的に強調することができる。
AF-MATが最先端のベースラインを上回る3つのベンチマークデータセットの実験により、ABSAタスクの精度が向上した。
論文 参考訳(メタデータ) (2025-07-01T22:21:33Z) - xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement [19.76560732937885]
本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。
我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で同様の複雑さを持つ最先端のMambaおよびConformerベースのシステムより優れています。
論文 参考訳(メタデータ) (2025-01-10T18:10:06Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Automatic Remaining Useful Life Estimation Framework with Embedded
Convolutional LSTM as the Backbone [5.927250637620123]
組込み畳み込みLSTM(E NeuralTM)と呼ばれる新しいLSTM変種を提案する。
ETMでは、異なる1次元の畳み込みの群がLSTM構造に埋め込まれている。
RUL推定のために広く用いられているいくつかのベンチマークデータセットに対する最先端のアプローチよりも,提案したEMMアプローチの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-10T08:34:20Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。