論文の概要: Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition
- arxiv url: http://arxiv.org/abs/2208.09269v1
- Date: Fri, 19 Aug 2022 11:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:01:52.276023
- Title: Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition
- Title(参考訳): 音声に基づく感情認識のための特徴選択強調と特徴空間可視化
- Authors: Sofia Kanwal, Sohail Asghar, Hazrat Ali
- Abstract要約: 音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
- 参考スコア(独自算出の注目度): 2.223733768286313
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust speech emotion recognition relies on the quality of the speech
features. We present speech features enhancement strategy that improves speech
emotion recognition. We used the INTERSPEECH 2010 challenge feature-set. We
identified subsets from the features set and applied Principle Component
Analysis to the subsets. Finally, the features are fused horizontally. The
resulting feature set is analyzed using t-distributed neighbour embeddings
(t-SNE) before the application of features for emotion recognition. The method
is compared with the state-of-the-art methods used in the literature. The
empirical evidence is drawn using two well-known datasets: Emotional Speech
Dataset (EMO-DB) and Ryerson Audio-Visual Database of Emotional Speech and Song
(RAVDESS) for two languages, German and English, respectively. Our method
achieved an average recognition gain of 11.5\% for six out of seven emotions
for the EMO-DB dataset, and 13.8\% for seven out of eight emotions for the
RAVDESS dataset as compared to the baseline study.
- Abstract(参考訳): 頑健な音声感情認識は、音声特徴の品質に依存する。
音声の感情認識を改善する音声特徴強調戦略を提案する。
私たちは、InterSPEECH 2010 Challenge機能セットを使用しました。
機能セットからサブセットを特定し,そのサブセットに原則コンポーネント分析を適用した。
最後に、特徴を水平に融合する。
得られた特徴集合は、感情認識のための特徴の応用の前に、t分散近傍埋め込み(t-SNE)を用いて分析される。
本手法は,文献で用いられる最先端の手法と比較する。
経験的証拠は、感情音声データセット(EMO-DB)とRyerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)の2つのよく知られたデータセットを用いて記述される。
本手法は,emo-dbデータセットの7つの感情のうち6つのうち11.5\%,ravedessデータセットの8つの感情のうち7つのうち13.8\%の平均認識ゲインを達成した。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。
データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。
次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文 参考訳(メタデータ) (2024-10-27T04:23:34Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - FAF: A novel multimodal emotion recognition approach integrating face,
body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文 参考訳(メタデータ) (2022-11-20T14:43:36Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。