論文の概要: Beyond saliency: enhancing explanation of speech emotion recognition with expert-referenced acoustic cues
- arxiv url: http://arxiv.org/abs/2511.11691v1
- Date: Wed, 12 Nov 2025 09:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.002244
- Title: Beyond saliency: enhancing explanation of speech emotion recognition with expert-referenced acoustic cues
- Title(参考訳): サリエンシを超えて:専門家による音響的手がかりを用いた音声感情認識の高機能化
- Authors: Seham Nasr, Zhao Ren, David Johnson,
- Abstract要約: 視覚から適応した現在のサリエンシに基づく手法では、スペクトログラム領域が強調されるが、これらの領域が感情の有意義な音響マーカーに対応するか否かは示さない。
本稿では,これらの制約を克服する枠組みを提案する。
これは「何」が強調されるのかを明らかにし、それを「なぜ」重要かに結び付け、専門家が参照した音声の感情の手がかりとサラリティーを結びつける。
- 参考スコア(独自算出の注目度): 5.597645495963195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable AI (XAI) for Speech Emotion Recognition (SER) is critical for building transparent, trustworthy models. Current saliency-based methods, adapted from vision, highlight spectrogram regions but fail to show whether these regions correspond to meaningful acoustic markers of emotion, limiting faithfulness and interpretability. We propose a framework that overcomes these limitations by quantifying the magnitudes of cues within salient regions. This clarifies "what" is highlighted and connects it to "why" it matters, linking saliency to expert-referenced acoustic cues of speech emotions. Experiments on benchmark SER datasets show that our approach improves explanation quality by explicitly linking salient regions to theory-driven speech emotions expert-referenced acoustics. Compared to standard saliency methods, it provides more understandable and plausible explanations of SER models, offering a foundational step towards trustworthy speech-based affective computing.
- Abstract(参考訳): 音声感情認識(SER)のための説明可能なAI(XAI)は、透明で信頼できるモデルを構築する上で重要である。
視覚から適応した現在のサリエンシに基づく手法は、スペクトログラム領域を強調するが、これらの領域が感情の有意義な音響マーカーに対応し、忠実さと解釈可能性を制限するかどうかを示さない。
本稿では,これらの制約を克服する枠組みを提案する。
これは「何」が強調されるのかを明らかにし、それを「なぜ」重要かに結び付け、専門家が参照した音声の感情の手がかりとサラリティーを結びつける。
ベンチマークSERデータセットを用いた実験により,本手法は有意な領域と理論駆動型音声感情を専門家参照音響に明示的にリンクすることにより,説明品質の向上を図っている。
標準的なサリエンシ法と比較して、SERモデルのより理解しやすく、妥当な説明を提供し、信頼できる音声ベースの感情計算への基礎的なステップを提供する。
関連論文リスト
- Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - Investigating the Impact of Word Informativeness on Speech Emotion Recognition [0.38073142980732994]
本研究では,事前学習した言語モデルから派生した単語情報度を用いて,意味的に重要なセグメントを識別する手法を提案する。
音響的特徴はこれらの特定セグメントに対してのみ計算され、感情認識の精度が向上する。
論文 参考訳(メタデータ) (2025-06-02T20:30:48Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文 参考訳(メタデータ) (2023-06-30T09:21:48Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。