Fugu-MT 論文翻訳(概要): An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance

論文の概要: An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance

arxiv url: http://arxiv.org/abs/2312.10937v1
Date: Mon, 18 Dec 2023 05:24:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 21:15:28.335605
Title: An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance
Title（参考訳）: 音声感情認識性能向上のための拡張可変モード分解アルゴリズム
Authors: David Hason Rudd, Huan Huo, Guandong Xu
Abstract要約: 本研究では,有意な音声特徴を識別するための変分モード分解アルゴリズムであるVGG-optiVMDを提案する。様々な特徴ベクトルを用いて、異なるデータベース上のVGG16ネットワークをトレーニングし、VGG-optiVMDと信頼性を評価する。その結果,信号サンプル率の微調整と分解パラメータとの相乗関係を分類精度で確認した。
参考スコア（独自算出の注目度）: 15.919990281329085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotion recognition (ER) from speech signals is a robust approach since it cannot be imitated like facial expression or text based sentiment analysis. Valuable information underlying the emotions are significant for human-computer interactions enabling intelligent machines to interact with sensitivity in the real world. Previous ER studies through speech signal processing have focused exclusively on associations between different signal mode decomposition methods and hidden informative features. However, improper decomposition parameter selections lead to informative signal component losses due to mode duplicating and mixing. In contrast, the current study proposes VGG-optiVMD, an empowered variational mode decomposition algorithm, to distinguish meaningful speech features and automatically select the number of decomposed modes and optimum balancing parameter for the data fidelity constraint by assessing their effects on the VGG16 flattening output layer. Various feature vectors were employed to train the VGG16 network on different databases and assess VGG-optiVMD reproducibility and reliability. One, two, and three-dimensional feature vectors were constructed by concatenating Mel-frequency cepstral coefficients, Chromagram, Mel spectrograms, Tonnetz diagrams, and spectral centroids. Results confirmed a synergistic relationship between the fine-tuning of the signal sample rate and decomposition parameters with classification accuracy, achieving state-of-the-art 96.09% accuracy in predicting seven emotions on the Berlin EMO-DB database.
Abstract（参考訳）: 音声信号からの感情認識(ER)は、表情やテキストベースの感情分析のように模倣できないため、堅牢なアプローチである。感情の根底にある貴重な情報は、人間とコンピュータのインタラクションにおいて重要であり、インテリジェントマシンは現実世界の感度と対話できる。音声信号処理による従来のER研究は、異なる信号モード分解法と隠れ情報的特徴の関連性にのみ焦点をあててきた。しかし、不適切な分解パラメータ選択は、モード重複と混合による情報信号成分の損失をもたらす。これとは対照的に,本研究では,有意な音声特徴を識別し,データ忠実度制約に対する分割モードの数と最適なバランスパラメータをVGG16平坦化出力層上で評価することで,VGG-optiVMDを提案する。様々な特徴ベクトルを用いて、異なるデータベース上でVGG16ネットワークをトレーニングし、VGG-optiVMD再現性と信頼性を評価する。 1, 2, 3次元特徴ベクトルはメル周波数ケプストラム係数, クロマグラム, メル分光図, トネッツ図, スペクトルセントロイドを連結して構成した。その結果、ベルリンのemo-dbデータベース上で7つの感情を予測する際に、信号サンプルレートの微調整と分解パラメータの分類精度の相乗効果が確認できた。

関連論文リスト

CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文参考訳（メタデータ） (2025-06-19T06:31:08Z)
Category-aware EEG image generation based on wavelet transform and contrast semantic loss [4.165508411354963]
本稿では、離散ウェーブレット変換(DWT)とゲーティング機構を統合したトランスフォーマーベースのEEG信号エンコーダを提案する。このエンコーダは,脳波信号から視覚刺激に関連する特徴を抽出するために用いられる。事前学習した拡散モデルにより、これらの特徴は視覚刺激に再構成される。
論文参考訳（メタデータ） (2025-05-30T07:24:58Z)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。工業画像から抽出した55個の特徴を統計的手法を用いて解析した。これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳（メタデータ） (2024-12-11T22:12:21Z)
Feature Selection via Dynamic Graph-based Attention Block in MI-based EEG Signals [0.0]
脳-コンピュータインタフェース(BCI)技術は、脳信号を分析して人間とコンピュータの直接的な相互作用を可能にする。脳波信号は、しばしば低信号対雑音比、生理的アーティファクト、および個々の変数の影響を受けており、異なる特徴を抽出する際の課題を表している。また、運動画像(MI)に基づく脳波信号には、MI特性との相関が低い特徴が含まれており、深部モデルの重みがそれらの特徴に偏っている可能性がある。
論文参考訳（メタデータ） (2024-10-31T00:53:29Z)
Specific Emitter Identification Based on Joint Variational Mode Decomposition [7.959137957880584]
特定のエミッタ識別(SEI)技術は、自己組織化ネットワークやスペクトル管理などのデバイス管理シナリオにおいて重要である。非線形および非定常電磁信号に対して、SEIはしばしば、異なるデバイス指紋を効果的に特徴付けるために、信号を分解するために変分モード分解(VMD)を用いる。本稿では,マルチフレーム信号に対して同時にモーダル分解を実装し,VMDの改良版であるJVMDアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-03T02:19:32Z)
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文参考訳（メタデータ） (2023-10-19T16:02:53Z)
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文参考訳（メタデータ） (2023-07-06T10:50:46Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
EEGminer: Discovering Interpretable Features of Brain Activity with Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文参考訳（メタデータ） (2021-10-19T14:22:04Z)
Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurrent Neural Networks for Speech Emotion Recognition [1.1086440815804228]
本稿では,GAN法に基づくハイブリッドデータ拡張法について検討する。 HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。
論文参考訳（メタデータ） (2021-09-18T23:13:44Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。