論文の概要: Better Spanish Emotion Recognition In-the-wild: Bringing Attention to Deep Spectrum Voice Analysis
- arxiv url: http://arxiv.org/abs/2409.05148v1
- Date: Sun, 8 Sep 2024 16:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:06:48.432723
- Title: Better Spanish Emotion Recognition In-the-wild: Bringing Attention to Deep Spectrum Voice Analysis
- Title(参考訳): より優れたスペイン語感情認識:ディープスペクトル音声分析への注意を喚起する
- Authors: Elena Ortega-Beltrán, Josep Cabacas-Maso, Ismael Benito-Altamirano, Carles Ventura,
- Abstract要約: スペインの音声記録データセットであるELRA-S0329とEmoMatchDBの分析に焦点をあてた。
我々は,意識メカニズム,すなわちDS-AMに基づく独自のモデルを提案した。
- 参考スコア(独自算出の注目度): 1.0374615809135401
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Within the context of creating new Socially Assistive Robots, emotion recognition has become a key development factor, as it allows the robot to adapt to the user's emotional state in the wild. In this work, we focused on the analysis of two voice recording Spanish datasets: ELRA-S0329 and EmoMatchSpanishDB. Specifically, we centered our work in the paralanguage, e.~g. the vocal characteristics that go along with the message and clarifies the meaning. We proposed the use of the DeepSpectrum method, which consists of extracting a visual representation of the audio tracks and feeding them to a pretrained CNN model. For the classification task, DeepSpectrum is often paired with a Support Vector Classifier --DS-SVC--, or a Fully-Connected deep-learning classifier --DS-FC--. We compared the results of the DS-SVC and DS-FC architectures with the state-of-the-art (SOTA) for ELRA-S0329 and EmoMatchSpanishDB. Moreover, we proposed our own classifier based upon Attention Mechanisms, namely DS-AM. We trained all models against both datasets, and we found that our DS-AM model outperforms the SOTA models for the datasets and the SOTA DeepSpectrum architectures. Finally, we trained our DS-AM model in one dataset and tested it in the other, to simulate real-world conditions on how biased is the model to the dataset.
- Abstract(参考訳): 新たな社会的援助ロボットを作成するコンテキスト内では、ロボットがユーザーの感情状態に適応できるようにするため、感情認識が重要な発達要因となっている。
本研究では、ELRA-S0329とEmoMatch SpanishDBという2つの音声記録スペイン語データセットの分析に焦点を当てた。
具体的には,パラ言語,e。
~g。
メッセージに沿い、意味を明確にする声の特徴。
我々は,音声トラックの視覚的表現を抽出し,事前学習したCNNモデルに供給するDeepSpectrum法を提案する。
分類タスクでは、DeepSpectrumはSupport Vector Classifier --DS-SVC-またはFully-Connected Deep-learning Classifier --DS-FC-とペアリングされることが多い。
DS-SVCおよびDS-FCアーキテクチャの結果を,ELRA-S0329およびEmoMatch SpanishDBの最先端(SOTA)と比較した。
さらに,注意機構,すなわちDS-AMに基づく独自の分類器を提案する。
DS-AMモデルはデータセットとSOTA DeepSpectrumアーキテクチャのSOTAモデルよりも優れています。
最後に、DS-AMモデルを1つのデータセットでトレーニングし、もう1つのデータセットでテストしました。
関連論文リスト
- SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark [13.820963986497128]
音声による感情認識(SER)は、音声ベースのアプリケーションにおける人間とコンピュータの相互作用の促進に不可欠である。
特定の感情的データセットの改善にもかかわらず、SERが現実世界の状況にまたがって一般化する能力にはまだ研究のギャップがある。
本稿では,異なる感情データセットにまたがってSERシステムを一般化するためのアプローチについて検討する。
論文 参考訳(メタデータ) (2024-06-14T11:27:19Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。
我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - BENDR: using transformers and a contrastive self-supervised learning
task to learn from massive amounts of EEG data [15.71234837305808]
言語モデリング(LM)の手法とアーキテクチャを脳波モデリング(EM)に適用する方法を検討する。
1つの事前学習モデルが、異なるハードウェアで記録された全く新しい生の脳波シーケンスをモデル化できることがわかった。
このモデルの内部表現とアーキテクチャ全体は、さまざまな下流のBCIおよびEEG分類タスクに微調整することができる。
論文 参考訳(メタデータ) (2021-01-28T14:54:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。