Fugu-MT 論文翻訳(概要): Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition

論文の概要: Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition

arxiv url: http://arxiv.org/abs/2208.09269v1
Date: Fri, 19 Aug 2022 11:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-22 17:01:52.276023
Title: Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition
Title（参考訳）: 音声に基づく感情認識のための特徴選択強調と特徴空間可視化
Authors: Sofia Kanwal, Sohail Asghar, Hazrat Ali
Abstract要約: 音声の感情認識を改善する音声特徴強調戦略を提案する。この戦略は、文学で使われている最先端の手法と比較される。 EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
参考スコア（独自算出の注目度）: 2.223733768286313
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Robust speech emotion recognition relies on the quality of the speech features. We present speech features enhancement strategy that improves speech emotion recognition. We used the INTERSPEECH 2010 challenge feature-set. We identified subsets from the features set and applied Principle Component Analysis to the subsets. Finally, the features are fused horizontally. The resulting feature set is analyzed using t-distributed neighbour embeddings (t-SNE) before the application of features for emotion recognition. The method is compared with the state-of-the-art methods used in the literature. The empirical evidence is drawn using two well-known datasets: Emotional Speech Dataset (EMO-DB) and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) for two languages, German and English, respectively. Our method achieved an average recognition gain of 11.5\% for six out of seven emotions for the EMO-DB dataset, and 13.8\% for seven out of eight emotions for the RAVDESS dataset as compared to the baseline study.
Abstract（参考訳）: 頑健な音声感情認識は、音声特徴の品質に依存する。音声の感情認識を改善する音声特徴強調戦略を提案する。私たちは、InterSPEECH 2010 Challenge機能セットを使用しました。機能セットからサブセットを特定し,そのサブセットに原則コンポーネント分析を適用した。最後に、特徴を水平に融合する。得られた特徴集合は、感情認識のための特徴の応用の前に、t分散近傍埋め込み(t-SNE)を用いて分析される。本手法は,文献で用いられる最先端の手法と比較する。経験的証拠は、感情音声データセット(EMO-DB)とRyerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)の2つのよく知られたデータセットを用いて記述される。本手法は,emo-dbデータセットの7つの感情のうち6つのうち11.5\%,ravedessデータセットの8つの感情のうち7つのうち13.8\%の平均認識ゲインを達成した。

関連論文リスト

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
EmoTale: An Enacted Speech-emotion Dataset in Danish [4.228593407506635]
エモテール(EmoTale)は、デンマーク語と英語の音声録音のコーパスである。我々は,自己教師付き音声モデル埋め込みとopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。最良のモデルでは、エモテール・コーパスで64.1%の未加重平均リコール(UAR)を達成する。
論文参考訳（メタデータ） (2025-08-20T09:01:54Z)
Investigating the Impact of Word Informativeness on Speech Emotion Recognition [0.38073142980732994]
本研究では,事前学習した言語モデルから派生した単語情報度を用いて,意味的に重要なセグメントを識別する手法を提案する。音響的特徴はこれらの特定セグメントに対してのみ計算され、感情認識の精度が向上する。
論文参考訳（メタデータ） (2025-06-02T20:30:48Z)
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文参考訳（メタデータ） (2025-06-02T13:46:02Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文参考訳（メタデータ） (2024-10-27T04:23:34Z)
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。 AWEは以前、音響的識別可能性の把握に有用であることを示した。以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文参考訳（メタデータ） (2024-02-04T21:24:54Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文参考訳（メタデータ） (2023-12-10T05:17:39Z)
Exploring Emotion Expression Recognition in Older Adults Interacting with a Virtual Coach [22.00225071959289]
EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
論文参考訳（メタデータ） (2023-11-09T18:22:32Z)
FAF: A novel multimodal emotion recognition approach integrating face, body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文参考訳（メタデータ） (2022-11-20T14:43:36Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文参考訳（メタデータ） (2021-06-05T06:19:14Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition [62.48806555665122]
EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
論文参考訳（メタデータ） (2020-12-27T10:50:24Z)
Embedded Emotions -- A Data Driven Approach to Learn Transferable Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文参考訳（メタデータ） (2020-09-30T09:18:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。