論文の概要: An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance
- arxiv url: http://arxiv.org/abs/2312.10937v1
- Date: Mon, 18 Dec 2023 05:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:15:28.335605
- Title: An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance
- Title(参考訳): 音声感情認識性能向上のための拡張可変モード分解アルゴリズム
- Authors: David Hason Rudd, Huan Huo, Guandong Xu
- Abstract要約: 本研究では,有意な音声特徴を識別するための変分モード分解アルゴリズムであるVGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上のVGG16ネットワークをトレーニングし、VGG-optiVMDと信頼性を評価する。
その結果,信号サンプル率の微調整と分解パラメータとの相乗関係を分類精度で確認した。
- 参考スコア(独自算出の注目度): 15.919990281329085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition (ER) from speech signals is a robust approach since it
cannot be imitated like facial expression or text based sentiment analysis.
Valuable information underlying the emotions are significant for human-computer
interactions enabling intelligent machines to interact with sensitivity in the
real world. Previous ER studies through speech signal processing have focused
exclusively on associations between different signal mode decomposition methods
and hidden informative features. However, improper decomposition parameter
selections lead to informative signal component losses due to mode duplicating
and mixing. In contrast, the current study proposes VGG-optiVMD, an empowered
variational mode decomposition algorithm, to distinguish meaningful speech
features and automatically select the number of decomposed modes and optimum
balancing parameter for the data fidelity constraint by assessing their effects
on the VGG16 flattening output layer. Various feature vectors were employed to
train the VGG16 network on different databases and assess VGG-optiVMD
reproducibility and reliability. One, two, and three-dimensional feature
vectors were constructed by concatenating Mel-frequency cepstral coefficients,
Chromagram, Mel spectrograms, Tonnetz diagrams, and spectral centroids. Results
confirmed a synergistic relationship between the fine-tuning of the signal
sample rate and decomposition parameters with classification accuracy,
achieving state-of-the-art 96.09% accuracy in predicting seven emotions on the
Berlin EMO-DB database.
- Abstract(参考訳): 音声信号からの感情認識(ER)は、表情やテキストベースの感情分析のように模倣できないため、堅牢なアプローチである。
感情の根底にある貴重な情報は、人間とコンピュータのインタラクションにおいて重要であり、インテリジェントマシンは現実世界の感度と対話できる。
音声信号処理による従来のER研究は、異なる信号モード分解法と隠れ情報的特徴の関連性にのみ焦点をあててきた。
しかし、不適切な分解パラメータ選択は、モード重複と混合による情報信号成分の損失をもたらす。
これとは対照的に,本研究では,有意な音声特徴を識別し,データ忠実度制約に対する分割モードの数と最適なバランスパラメータをVGG16平坦化出力層上で評価することで,VGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上でVGG16ネットワークをトレーニングし、VGG-optiVMD再現性と信頼性を評価する。
1, 2, 3次元特徴ベクトルはメル周波数ケプストラム係数, クロマグラム, メル分光図, トネッツ図, スペクトルセントロイドを連結して構成した。
その結果、ベルリンのemo-dbデータベース上で7つの感情を予測する際に、信号サンプルレートの微調整と分解パラメータの分類精度の相乗効果が確認できた。
関連論文リスト
- A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Feature Selection via Dynamic Graph-based Attention Block in MI-based EEG Signals [0.0]
脳-コンピュータインタフェース(BCI)技術は、脳信号を分析して人間とコンピュータの直接的な相互作用を可能にする。
脳波信号は、しばしば低信号対雑音比、生理的アーティファクト、および個々の変数の影響を受けており、異なる特徴を抽出する際の課題を表している。
また、運動画像(MI)に基づく脳波信号には、MI特性との相関が低い特徴が含まれており、深部モデルの重みがそれらの特徴に偏っている可能性がある。
論文 参考訳(メタデータ) (2024-10-31T00:53:29Z) - Specific Emitter Identification Based on Joint Variational Mode Decomposition [7.959137957880584]
特定のエミッタ識別(SEI)技術は、自己組織化ネットワークやスペクトル管理などのデバイス管理シナリオにおいて重要である。
非線形および非定常電磁信号に対して、SEIはしばしば、異なるデバイス指紋を効果的に特徴付けるために、信号を分解するために変分モード分解(VMD)を用いる。
本稿では,マルチフレーム信号に対して同時にモーダル分解を実装し,VMDの改良版であるJVMDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-03T02:19:32Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Hybrid Data Augmentation and Deep Attention-based Dilated
Convolutional-Recurrent Neural Networks for Speech Emotion Recognition [1.1086440815804228]
本稿では,GAN法に基づくハイブリッドデータ拡張法について検討する。
HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。
提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
論文 参考訳(メタデータ) (2021-09-18T23:13:44Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。