Fugu-MT 論文翻訳(概要): Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition

論文の概要: Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2312.10949v1
Date: Mon, 18 Dec 2023 05:55:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 21:17:46.819906
Title: Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition
Title（参考訳）: 音声感情認識における高調波成分とパーカッシブ成分を用いたメル分光法
Authors: David Hason Rudd, Huan Huo, Guandong Xu
Abstract要約: 本研究では,メルスペクトルの高調波成分とパーカッシブ成分が音声感情認識(SER)に及ぼす影響について検討する。提案アーキテクチャにおける音響特性を分解し,メル分光図の活用を試みる。本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。
参考スコア（独自算出の注目度）: 15.919990281329085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech Emotion Recognition (SER) affective technology enables the intelligent embedded devices to interact with sensitivity. Similarly, call centre employees recognise customers' emotions from their pitch, energy, and tone of voice so as to modify their speech for a high-quality interaction with customers. This work explores, for the first time, the effects of the harmonic and percussive components of Mel spectrograms in SER. We attempt to leverage the Mel spectrogram by decomposing distinguishable acoustic features for exploitation in our proposed architecture, which includes a novel feature map generator algorithm, a CNN-based network feature extractor and a multi-layer perceptron (MLP) classifier. This study specifically focuses on effective data augmentation techniques for building an enriched hybrid-based feature map. This process results in a function that outputs a 2D image so that it can be used as input data for a pre-trained CNN-VGG16 feature extractor. Furthermore, we also investigate other acoustic features such as MFCCs, chromagram, spectral contrast, and the tonnetz to assess our proposed framework. A test accuracy of 92.79% on the Berlin EMO-DB database is achieved. Our result is higher than previous works using CNN-VGG16.
Abstract（参考訳）: 音声感情認識(ser)感情技術は、インテリジェントな組み込みデバイスが感度と対話することを可能にする。同様に、コールセンターの従業員は、ピッチ、エネルギー、声のトーンから顧客の感情を認識し、顧客との高品質な対話のためにスピーチを変更する。この研究は、初めてメル分光図の高調波成分と打楽器成分の影響を探求するものである。本研究では,新しい特徴マップ生成アルゴリズム,cnnに基づくネットワーク特徴抽出器,多層パーセプトロン(mlp)分類器を含む,提案手法を用いて識別可能な音響特徴を分解し,メルスペクトログラムの活用を試みる。本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。これにより、2D画像を出力し、事前訓練されたCNN-VGG16特徴抽出器の入力データとして使用できるようにする。さらに, MFCC, クロマグラム, スペクトルコントラスト, トネッツなどの音響特性についても検討し, 提案手法の評価を行った。ベルリンのemo-dbデータベースにおけるテスト精度は92.79%である。その結果,従来のCNN-VGG16よりも高い結果を得た。

関連論文リスト

Toward Efficient Speech Emotion Recognition via Spectral Learning and Attention [0.5371337604556311]
音声感情認識(SER)は、伝統的に感情分類のための聴覚データ分析に依存している。我々は,Mel-Frequency Cepstral Coefficients (MFCCs) をスペクトル特性として用いて,計算的感情処理と人間の聴覚知覚のギャップを埋める。データ拡張技術を統合する新しい1D-CNNベースのSERフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T01:55:49Z)
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文参考訳（メタデータ） (2025-06-02T13:46:02Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文参考訳（メタデータ） (2025-02-01T04:18:06Z)
Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework [0.7864304771129751]
音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
論文参考訳（メタデータ） (2024-12-13T09:55:03Z)
Keypoint Description by Symmetry Assessment -- Applications in Biometrics [49.547569925407814]
有限展開によりキーポイント周辺の近傍を記述するモデルに基づく特徴抽出器を提案する。そのような関数の等曲線は、原点(キーポイント)と推定されたパラメータがよく定義された幾何学的解釈を持つように、高度に対称な w.r.t である。
論文参考訳（メタデータ） (2023-11-03T00:49:25Z)
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文参考訳（メタデータ） (2023-10-19T16:02:53Z)
SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers [0.0]
本稿では,音声認識のための新しい学習方法を提案する。これは、CCT(Compact Convolutional Transformers)とスピーカー埋め込みの組み合わせに基づいている。クロスコーパス設定でいくつかのベンチマークで実験が行われた。
論文参考訳（メタデータ） (2022-11-04T10:49:44Z)
M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文参考訳（メタデータ） (2022-06-05T14:18:58Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文参考訳（メタデータ） (2022-03-29T08:17:28Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)
End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文参考訳（メタデータ） (2021-02-12T18:00:08Z)
Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文参考訳（メタデータ） (2020-09-18T16:09:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。