論文の概要: SpectroFusion-ViT: A Lightweight Transformer for Speech Emotion Recognition Using Harmonic Mel-Chroma Fusion
- arxiv url: http://arxiv.org/abs/2603.00746v1
- Date: Sat, 28 Feb 2026 17:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.349101
- Title: SpectroFusion-ViT: A Lightweight Transformer for Speech Emotion Recognition Using Harmonic Mel-Chroma Fusion
- Title(参考訳): スペクトルフュージョン-ViT:高調波メルクロマ融合を用いた音声認識用軽量変換器
- Authors: Faria Ahmed, Rafi Hassan Chowdhury, Fatema Tuz Zohora Moon, Sabbir Ahmed,
- Abstract要約: 音声感情認識(SER)は、人間とコンピュータの相互作用、医療、教育、カスタマーサービスにおける応用の中心である。
本稿では,コンパクトなビジョントランスアーキテクチャであるEfficientViT-b0を利用した軽量SERフレームワークSpectroFusion-ViTを提案する。
提案手法は、SUBESCOで92.56%、BanglaSERで82.19%の精度を達成し、既存の最先端手法を超越している。
- 参考スコア(独自算出の注目度): 3.110023719062504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a natural means of conveying emotions, making it an effective method for understanding and representing human feelings. Reliable speech emotion recognition (SER) is central to applications in human-computer interaction, healthcare, education, and customer service. However, most SER methods depend on heavy backbone models or hand-crafted features that fail to balance accuracy and efficiency, particularly for low-resource languages like Bangla. In this work, we present SpectroFusion-ViT, a lightweight SER framework built utilizing EfficientViT-b0, a compact Vision Transformer architecture equipped with self-attention to capture long-range temporal and spectral patterns. The model contains only 2.04M parameters and requires 0.1 GFLOPs, enabling deployment in resource-constrained settings without compromising accuracy. Our pipeline first performs preprocessing and augmentation on raw audio, then extracts Chroma and Mel-frequency cepstral coefficient (MFCC) features. These representations are fused into a complementary time-frequency descriptor that preserves both fine-grained spectral detail and broader harmonic structure. Using transfer learning, EfficientViT-b0 is fine-tuned for multi-class emotion classification. We evaluate the system on two benchmark Bangla emotional speech datasets, SUBESCO and BanglaSER, which vary in speaker diversity, recording conditions, and acoustic characteristics. The proposed approach achieves 92.56% accuracy on SUBESCO and 82.19% on BanglaSER, surpassing existing state-of-the-art methods. These findings demonstrate that lightweight transformer architectures can deliver robust SER performance while remaining computationally efficient for real-world deployment.
- Abstract(参考訳): 音声は感情を伝える自然な手段であり、人間の感情を理解し表現するための効果的な方法である。
信頼性のある音声感情認識(SER)は、人間とコンピュータの相互作用、医療、教育、カスタマーサービスにおける応用の中心である。
しかしながら、ほとんどのSERメソッドは、特にBanglaのような低リソース言語において、精度と効率のバランスが取れない重いバックボーンモデルや手作りの機能に依存している。
本研究では,遠距離時間およびスペクトルパターンをキャプチャする自己アテンションを備えたコンパクトビジョントランスフォーマアーキテクチャであるEfficientViT-b0を利用した軽量SERフレームワークであるSpectroFusion-ViTを提案する。
このモデルは2.04Mパラメータのみを含み、0.1 GFLOPが必要である。
パイプラインはまず,まず生音声の事前処理と拡張を行い,次にクロマおよびメル周波数ケプストラム係数(MFCC)の特徴を抽出する。
これらの表現は、微細なスペクトルの詳細とより広い調和構造の両方を保持する補完的な時間周波数記述子に融合される。
EfficientViT-b0は、転送学習を用いて、マルチクラス感情分類のために微調整される。
本システムは, 話者の多様性, 録音条件, 音響特性の異なる2種類の感情音声データセットであるSUBESCOとBanglaSERを用いて評価した。
提案手法は、SUBESCOで92.56%、BanglaSERで82.19%の精度を達成し、既存の最先端手法を超越している。
これらの結果から,軽量トランスフォーマーアーキテクチャは実環境において計算効率を保ちながら,堅牢なSER性能を実現することができることが示された。
関連論文リスト
- Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework [0.7864304771129751]
音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。
本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。
また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-12-13T09:55:03Z) - Leveraged Mel spectrograms using Harmonic and Percussive Components in
Speech Emotion Recognition [15.919990281329085]
本研究では,メルスペクトルの高調波成分とパーカッシブ成分が音声感情認識(SER)に及ぼす影響について検討する。
提案アーキテクチャにおける音響特性を分解し,メル分光図の活用を試みる。
本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-18T05:55:46Z) - Exploring Turkish Speech Recognition via Hybrid CTC/Attention
Architecture and Multi-feature Fusion Network [1.514049362441354]
本稿では,音声認識チューニング技術のシリーズについて検討する。
本稿では,効率的な特徴情報の利用を最大化するために,新たな特徴抽出器LSPCを提案する。
我々のモデル性能は、先進的なエンド・ツー・エンドモデルに匹敵する。
論文 参考訳(メタデータ) (2023-03-22T04:11:35Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。