論文の概要: On the Contribution of Lexical Features to Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.05634v1
- Date: Sat, 06 Sep 2025 07:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.622213
- Title: On the Contribution of Lexical Features to Speech Emotion Recognition
- Title(参考訳): 音声感情認識における語彙的特徴の寄与について
- Authors: David Combei,
- Abstract要約: 音声から抽出した語彙内容は、音響モデルと比較して競争力があり、場合によっては高い性能が得られることを示す。
我々は、異なる自己教師付き(SSL)音声とテキストの表現を分析し、トランスフォーマーベースのエンコーダをレイヤーワイズに研究し、音声復調の効果を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although paralinguistic cues are often considered the primary drivers of speech emotion recognition (SER), we investigate the role of lexical content extracted from speech and show that it can achieve competitive and in some cases higher performance compared to acoustic models. On the MELD dataset, our lexical-based approach obtains a weighted F1-score (WF1) of 51.5%, compared to 49.3% for an acoustic-only pipeline with a larger parameter count. Furthermore, we analyze different self-supervised (SSL) speech and text representations, conduct a layer-wise study of transformer-based encoders, and evaluate the effect of audio denoising.
- Abstract(参考訳): パラ言語的手がかりは、しばしば音声感情認識(SER)の主要な要因と考えられているが、音声から抽出された語彙的内容の役割について検討し、音響モデルと比較して競争力があり、場合によっては高い性能が得られることを示す。
MELDデータセットでは、パラメータ数が大きい音響のみのパイプラインでは49.3%に対して、我々の語彙ベースアプローチは51.5%の重み付きF1スコア(WF1)を得る。
さらに、異なる自己教師付き音声とテキスト表現を分析し、トランスフォーマーに基づくエンコーダの層知的な研究を行い、音声復調の効果を評価する。
関連論文リスト
- SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Investigating the Impact of Word Informativeness on Speech Emotion Recognition [0.38073142980732994]
本研究では,事前学習した言語モデルから派生した単語情報度を用いて,意味的に重要なセグメントを識別する手法を提案する。
音響的特徴はこれらの特定セグメントに対してのみ計算され、感情認識の精度が向上する。
論文 参考訳(メタデータ) (2025-06-02T20:30:48Z) - EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech [2.1455880234227624]
音声感情認識(SER)のための自発的データセットは、実験室環境やステージ化されたシナリオからしばしば抽出される。
EMOVOME(Emotional Voice Messages)データセットを開発し、公開しました。
ベースラインモデルおよび変圧器モデルとして音響特性を用いた話者非依存SERモデルの評価を行った。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。