Fugu-MT 論文翻訳(概要): Emotion Recognition In Persian Speech Using Deep Neural Networks

論文の概要: Emotion Recognition In Persian Speech Using Deep Neural Networks

arxiv url: http://arxiv.org/abs/2204.13601v1
Date: Thu, 28 Apr 2022 16:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-29 14:53:08.639908
Title: Emotion Recognition In Persian Speech Using Deep Neural Networks
Title（参考訳）: ディープニューラルネットワークを用いたペルシア語音声の感情認識
Authors: Ali Yazdani, Hossein Simchi, Yaser Shekofteh
Abstract要約: 音声感情認識(SER)はヒューマン・コンピュータインタラクション(HCI)において非常に重要である本稿では,SheEMOデータセット上での様々な深層学習手法について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech Emotion Recognition (SER) is of great importance in Human-Computer Interaction (HCI), as it provides a deeper understanding of the situation and results in better interaction. In recent years, various machine learning and deep learning algorithms have been developed to improve SER techniques. Recognition of emotions depends on the type of expression that varies between different languages. In this article, to further study this important factor in Farsi, we examine various deep learning techniques on the SheEMO dataset. Using signal features in low- and high-level descriptions and different deep networks and machine learning techniques, Unweighted Average Recall (UAR) of 65.20 is achieved with an accuracy of 78.29.
Abstract（参考訳）: 音声感情認識(SER)は、人間とコンピュータの相互作用(HCI)において非常に重要である。近年、SER技術を改善するために様々な機械学習とディープラーニングアルゴリズムが開発されている。感情の認識は、異なる言語によって異なる表現の種類に依存する。本稿では、Farsiにおけるこの重要な要因を更に研究するために、SheEMOデータセット上の様々な深層学習手法について検討する。低レベルおよび高レベル記述における信号特徴と異なるディープネットワークと機械学習技術を用いることで、unweighted average recall (uar) は 78.29 の精度で達成される。

関連論文リスト

Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文参考訳（メタデータ） (2024-06-15T21:33:03Z)
Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文参考訳（メタデータ） (2023-12-10T05:17:39Z)
Implementation of AI Deep Learning Algorithm For Multi-Modal Sentiment Analysis [0.9065034043031668]
2チャンネル畳み込みニューラルネットワークとリングネットワークを組み合わせることで,マルチモーダル感情認識手法を確立した。単語はGloVeでベクトル化され、ワードベクトルは畳み込みニューラルネットワークに入力される。
論文参考訳（メタデータ） (2023-11-19T05:49:39Z)
Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文参考訳（メタデータ） (2022-06-15T01:25:32Z)
Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文参考訳（メタデータ） (2022-05-22T14:44:53Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-03-16T15:49:15Z)
Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文参考訳（メタデータ） (2020-11-15T01:55:37Z)
Emotion Recognition in Audio and Video Using Deep Neural Networks [9.694548197876868]
ディープラーニング技術の進歩により、音声認識が大幅に向上した。音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
論文参考訳（メタデータ） (2020-06-15T04:50:18Z)
Continuous Emotion Recognition via Deep Convolutional Autoencoder and Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文参考訳（メタデータ） (2020-01-31T17:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。