論文の概要: An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance
- arxiv url: http://arxiv.org/abs/2312.10937v1
- Date: Mon, 18 Dec 2023 05:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:15:28.335605
- Title: An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance
- Title(参考訳): 音声感情認識性能向上のための拡張可変モード分解アルゴリズム
- Authors: David Hason Rudd, Huan Huo, Guandong Xu
- Abstract要約: 本研究では,有意な音声特徴を識別するための変分モード分解アルゴリズムであるVGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上のVGG16ネットワークをトレーニングし、VGG-optiVMDと信頼性を評価する。
その結果,信号サンプル率の微調整と分解パラメータとの相乗関係を分類精度で確認した。
- 参考スコア(独自算出の注目度): 15.919990281329085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition (ER) from speech signals is a robust approach since it
cannot be imitated like facial expression or text based sentiment analysis.
Valuable information underlying the emotions are significant for human-computer
interactions enabling intelligent machines to interact with sensitivity in the
real world. Previous ER studies through speech signal processing have focused
exclusively on associations between different signal mode decomposition methods
and hidden informative features. However, improper decomposition parameter
selections lead to informative signal component losses due to mode duplicating
and mixing. In contrast, the current study proposes VGG-optiVMD, an empowered
variational mode decomposition algorithm, to distinguish meaningful speech
features and automatically select the number of decomposed modes and optimum
balancing parameter for the data fidelity constraint by assessing their effects
on the VGG16 flattening output layer. Various feature vectors were employed to
train the VGG16 network on different databases and assess VGG-optiVMD
reproducibility and reliability. One, two, and three-dimensional feature
vectors were constructed by concatenating Mel-frequency cepstral coefficients,
Chromagram, Mel spectrograms, Tonnetz diagrams, and spectral centroids. Results
confirmed a synergistic relationship between the fine-tuning of the signal
sample rate and decomposition parameters with classification accuracy,
achieving state-of-the-art 96.09% accuracy in predicting seven emotions on the
Berlin EMO-DB database.
- Abstract(参考訳): 音声信号からの感情認識(ER)は、表情やテキストベースの感情分析のように模倣できないため、堅牢なアプローチである。
感情の根底にある貴重な情報は、人間とコンピュータのインタラクションにおいて重要であり、インテリジェントマシンは現実世界の感度と対話できる。
音声信号処理による従来のER研究は、異なる信号モード分解法と隠れ情報的特徴の関連性にのみ焦点をあててきた。
しかし、不適切な分解パラメータ選択は、モード重複と混合による情報信号成分の損失をもたらす。
これとは対照的に,本研究では,有意な音声特徴を識別し,データ忠実度制約に対する分割モードの数と最適なバランスパラメータをVGG16平坦化出力層上で評価することで,VGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上でVGG16ネットワークをトレーニングし、VGG-optiVMD再現性と信頼性を評価する。
1, 2, 3次元特徴ベクトルはメル周波数ケプストラム係数, クロマグラム, メル分光図, トネッツ図, スペクトルセントロイドを連結して構成した。
その結果、ベルリンのemo-dbデータベース上で7つの感情を予測する際に、信号サンプルレートの微調整と分解パラメータの分類精度の相乗効果が確認できた。
関連論文リスト
- Multi-Source Domain Adaptation with Transformer-based Feature Generation
for Subject-Independent EEG-based Emotion Recognition [0.5439020425819]
本稿では,複数の情報源からの情報を活用するために,トランスフォーマーベースの特徴生成器(MSDA-TF)を用いたマルチソース領域適応手法を提案する。
適応過程において、相関値に基づいてソース対象をグループ化し、ソース内だけでなく、対象対象のモーメントを各ソースと整合させることを目的としている。
MSDA-TFはSEEDデータセット上で検証され、有望な結果が得られた。
論文 参考訳(メタデータ) (2024-01-04T16:38:47Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition [1.1086440815804228]
本稿では,GAN法に基づくハイブリッドデータ拡張法について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
論文 参考訳(メタデータ) (2021-09-18T23:13:44Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。