論文の概要: ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.01401v1
- Date: Mon, 01 Sep 2025 11:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.675281
- Title: ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition
- Title(参考訳): ArabEmoNet:ロバストアラビア音声感情認識のための軽量ハイブリッドCNN-BiLSTMモデル
- Authors: Ali Abouzeid, Bilal Elbouardi, Mohamed Maged, Shady Shehata,
- Abstract要約: ArabEmoNetは制限を克服し、最先端のパフォーマンスを提供するように設計された軽量アーキテクチャである。
2Dコンボリューションによって処理されるメル分光器を使用し、伝統的な方法でしばしば失われる致命的な感情的な手がかりを保存する。
ArabEmoNetは100万のパラメータに過ぎず、HumberTベースより90倍、Whisperより74倍小さい。
- 参考スコア(独自算出の注目度): 2.7503873349012378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition is vital for human-computer interaction, particularly for low-resource languages like Arabic, which face challenges due to limited data and research. We introduce ArabEmoNet, a lightweight architecture designed to overcome these limitations and deliver state-of-the-art performance. Unlike previous systems relying on discrete MFCC features and 1D convolutions, which miss nuanced spectro-temporal patterns, ArabEmoNet uses Mel spectrograms processed through 2D convolutions, preserving critical emotional cues often lost in traditional methods. While recent models favor large-scale architectures with millions of parameters, ArabEmoNet achieves superior results with just 1 million parameters, 90 times smaller than HuBERT base and 74 times smaller than Whisper. This efficiency makes it ideal for resource-constrained environments. ArabEmoNet advances Arabic speech emotion recognition, offering exceptional performance and accessibility for real-world applications.
- Abstract(参考訳): 音声の感情認識は人間とコンピュータの相互作用に不可欠であり、特にアラビア語のような低リソース言語は、限られたデータと研究のために困難に直面している。
これらの制限を克服し、最先端のパフォーマンスを実現するために設計された軽量アーキテクチャであるA ArabEmoNetを紹介します。
離散的なMFCC機能や1D畳み込みに頼っている従来のシステムとは異なり、A ArabEmoNetは2D畳み込みによって処理されたメル分光器を使用し、伝統的な方法で失われる致命的な感情的な手がかりを保存する。
近年のモデルは数百万のパラメータを持つ大規模アーキテクチャを好んでいるが、ArabEmoNetは100万のパラメータだけで、HuBERTベースより90倍、Whisperより74倍小さい。
この効率性は資源に制約のある環境に最適である。
ArabEmoNetはアラビア語の音声の感情認識を進化させ、現実世界のアプリケーションに優れたパフォーマンスとアクセシビリティを提供する。
関連論文リスト
- Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
我々は,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)など,機械学習モデルのスイートを開発し,評価する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-08-26T19:08:54Z) - Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic [15.807843278492847]
言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。
我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
論文 参考訳(メタデータ) (2025-07-18T14:42:18Z) - Hybrid Deep Learning and Signal Processing for Arabic Dialect Recognition in Low-Resource Settings [0.0]
アラビア語の方言認識は、アラビア語の言語的多様性と大きな注釈付きデータセットの不足により、大きな課題を呈している。
本研究では,古典的な信号処理技術とディープラーニングアーキテクチャを融合したハイブリッドモデリング戦略について検討する。
論文 参考訳(メタデータ) (2025-06-26T15:36:25Z) - Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition [41.94295877935867]
手話は、聴覚障害と難聴(DHH)コミュニティのためのコミュニケーションの基本的な手段である。
聴覚障害者の間で 手話の流布が 限られているため 障壁は持続する
単語レベルアメリカン手話(ASL)認識のためのビデオビジョン変換器(ViViT)モデルを提案する。
論文 参考訳(メタデータ) (2025-04-10T14:27:25Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - An Innovative CGL-MHA Model for Sarcasm Sentiment Recognition Using the MindSpore Framework [0.0]
サルカズムは、明らかに肯定的あるいは誇張された言語を通して否定的な感情を伝達する。
本稿では, CNN, Gated Recurrent Units (GRU), Long Short-Term Memory (LSTM), Multi-Head Attention 機構を統合した革新的な皮肉検出モデルを提案する。
HeadlinesとRiloffの2つの皮肉検出データセットの実験では、モデルが81.20%、F1スコアが80.77%に達することが示されている。
論文 参考訳(メタデータ) (2024-11-02T14:33:47Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。