論文の概要: Investigating the Impact of Word Informativeness on Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.02239v1
- Date: Mon, 02 Jun 2025 20:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.074382
- Title: Investigating the Impact of Word Informativeness on Speech Emotion Recognition
- Title(参考訳): 単語のインフォームティヴさが音声感情認識に及ぼす影響の検討
- Authors: Sofoklis Kakouros,
- Abstract要約: 本研究では,事前学習した言語モデルから派生した単語情報度を用いて,意味的に重要なセグメントを識別する手法を提案する。
音響的特徴はこれらの特定セグメントに対してのみ計算され、感情認識の精度が向上する。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In emotion recognition from speech, a key challenge lies in identifying speech signal segments that carry the most relevant acoustic variations for discerning specific emotions. Traditional approaches compute functionals for features such as energy and F0 over entire sentences or longer speech portions, potentially missing essential fine-grained variation in the long-form statistics. This research investigates the use of word informativeness, derived from a pre-trained language model, to identify semantically important segments. Acoustic features are then computed exclusively for these identified segments, enhancing emotion recognition accuracy. The methodology utilizes standard acoustic prosodic features, their functionals, and self-supervised representations. Results indicate a notable improvement in recognition performance when features are computed on segments selected based on word informativeness, underscoring the effectiveness of this approach.
- Abstract(参考訳): 音声からの感情認識において、重要な課題は、特定の感情を識別するために最も関連性の高い音響的バリエーションを持つ音声信号セグメントを特定することである。
従来のアプローチでは、文全体に対するエネルギーやF0といった機能や、長い音声の部分に対する関数を計算していた。
本研究では,事前学習した言語モデルから派生した単語情報度を用いて,意味的に重要なセグメントを識別する手法を提案する。
音響的特徴はこれらの特定セグメントに対してのみ計算され、感情認識の精度が向上する。
この手法は、標準的な音響韻律的特徴、その機能、および自己監督的表現を利用する。
その結果, 特徴が単語情報量に基づいて選択されたセグメントで計算された場合の認識性能は顕著に向上し, このアプローチの有効性が強調された。
関連論文リスト
- Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Measuring the Impact of Individual Domain Factors in Self-Supervised
Pre-Training [60.825471653739555]
音素領域因子は事前学習において重要な役割を担っているが,文法的・統語的要因はそれほど重要ではない。
本研究は,音声認識のための自己教師付き事前学習における事前学習セットのドメイン特性をよりよく理解するための最初の研究である。
論文 参考訳(メタデータ) (2022-03-01T17:40:51Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。