論文の概要: Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.18298v1
- Date: Sat, 20 Dec 2025 10:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.275883
- Title: Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition
- Title(参考訳): ノイズ・ロバスト音声認識のための説明可能な変圧器-CNN融合
- Authors: Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee,
- Abstract要約: 音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.0391237204597363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) systems often degrade in performance when exposed to the unpredictable acoustic interference found in real-world environments. Additionally, the opacity of deep learning models hinders their adoption in trust-sensitive applications. To bridge this gap, we propose a Hybrid Transformer-CNN framework that unifies the contextual modeling of Wav2Vec 2.0 with the spectral stability of 1D-Convolutional Neural Networks. Our dual-stream architecture processes raw waveforms to capture long-range temporal dependencies while simultaneously extracting noise-resistant spectral features (MFCC, ZCR, RMSE) via a custom Attentive Temporal Pooling mechanism. We conducted extensive validation across four diverse benchmark datasets: RAVDESS, TESS, SAVEE, and CREMA-D. To rigorously test robustness, we subjected the model to non-stationary acoustic interference using real-world noise profiles from the SAS-KIIT dataset. The proposed framework demonstrates superior generalization and state-of-the-art accuracy across all datasets, significantly outperforming single-branch baselines under realistic environmental interference. Furthermore, we address the ``black-box" problem by integrating SHAP and Score-CAM into the evaluation pipeline. These tools provide granular visual explanations, revealing how the model strategically shifts attention between temporal and spectral cues to maintain reliability in the presence of complex environmental noise.
- Abstract(参考訳): 音声感情認識(SER)システムは、実環境にある予測不可能な音響干渉にさらされると、しばしば性能が低下する。
さらに、ディープラーニングモデルの不透明さは、信頼に敏感なアプリケーションの採用を妨げる。
このギャップを埋めるために、Wav2Vec 2.0のコンテキストモデリングと1D-畳み込みニューラルネットワークのスペクトル安定性を統一するハイブリッドトランスフォーマー-CNNフレームワークを提案する。
我々のデュアルストリームアーキテクチャは、ノイズ耐性スペクトル特徴(MFCC, ZCR, RMSE)をカスタムのテンポラルプール機構で抽出しながら、長時間の時間依存性を捉えるために生波形を処理する。
RAVDESS, TESS, SAVEE, CREMA-Dの4つのベンチマークデータセットに対して広範囲に検証を行った。
本研究では,SAS-KIITデータセットから得られた実環境雑音プロファイルを用いて,非定常音響干渉による頑健さを厳密に検証した。
提案フレームワークは,すべてのデータセットに対して,より優れた一般化と最先端の精度を示し,現実的な環境干渉下での単一ブランチベースラインを著しく上回っている。
さらに、評価パイプラインにSHAPとScore-CAMを統合することで、"black-box"問題に対処する。
これらのツールは詳細な視覚的説明を提供し、複雑な環境騒音の存在下で信頼性を維持するために、モデルが時間的およびスペクトル的キュー間の注意を戦略的にシフトする方法を明らかにしている。
関連論文リスト
- RMSup: Physics-Informed Radio Map Super-Resolution for Compute-Enhanced Integrated Sensing and Communications [28.003646295374022]
物理インフォームド・フレームワークである RMSup について述べる。
実験の結果,提案したRMsupは, RM工法とISAC関連環境センシングの両面において, 最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-29T09:00:12Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset [11.179608136803447]
異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
既存のアプローチは視覚データのみに依存しており、困難な状況下では信頼できない。
大規模な同期音声-視覚の欠如は、マルチモーダルな異常認識の進展を妨げている。
論文 参考訳(メタデータ) (2025-10-15T14:56:00Z) - Ivan-ISTD: Rethinking Cross-domain Heteroscedastic Noise Perturbations in Infrared Small Target Detection [53.689841037081834]
Ivan-ISTD は ISTD におけるクロスドメインシフトと異方性雑音摂動の2つの課題に対処するように設計されている。
Ivan-ISTDはクロスドメインシナリオにおいて優れた堅牢性を示している。
論文 参考訳(メタデータ) (2025-10-14T07:48:31Z) - Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring [2.558238597112103]
GetNetUPAMは、現実的な可変性の下で安定性をモデル化するためのネストされたクロスバリデーションフレームワークである。
データは異なるサイト年区分に分割され、記録を保存し、各バリデーションフォールドがユニークな環境サブセットを反映することを保証する。
ARPA-Nは、DenseNetベースラインに対する平均精度が14.4%向上し、すべてのメトリクスで対数2スケールのオーダー・オブ・マグニチュードが減少する。
論文 参考訳(メタデータ) (2025-09-04T22:03:05Z) - DenoDet V2: Phase-Amplitude Cross Denoising for SAR Object Detection [49.9059941674531]
本稿では,バンドワイド相互変調機構を用いて,振幅と位相情報の相補的性質を利用するDenoDet V2を提案する。
DenoDet V2は、DenoDet V1と比較してSARDet-100Kデータセットの大幅な0.8%改善を実現し、モデルの複雑さを半分に削減した。
論文 参考訳(メタデータ) (2025-08-12T23:24:20Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。