論文の概要: Accuracy enhancement method for speech emotion recognition from spectrogram using temporal frequency correlation and positional information learning through knowledge transfer
- arxiv url: http://arxiv.org/abs/2403.17327v1
- Date: Tue, 26 Mar 2024 02:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 17:05:31.341628
- Title: Accuracy enhancement method for speech emotion recognition from spectrogram using temporal frequency correlation and positional information learning through knowledge transfer
- Title(参考訳): 時間周波数相関と知識伝達による位置情報学習を用いたスペクトルからの音声感情認識の精度向上手法
- Authors: Jeong-Yoon Kim, Seung-Ho Lee,
- Abstract要約: 視覚変換器(ViT)を用いた音声感情認識(SER)の精度向上手法を提案する。
時間とともに周波数の相関を解析するために,対数メルスペクトルの垂直分割パッチを用いる。
ViTに適した絶対位置符号化である画像座標符号化も提案する。
- 参考スコア(独自算出の注目度): 4.805428821219128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a method to improve the accuracy of speech emotion recognition (SER) by using vision transformer (ViT) to attend to the correlation of frequency (y-axis) with time (x-axis) in spectrogram and transferring positional information between ViT through knowledge transfer. The proposed method has the following originality i) We use vertically segmented patches of log-Mel spectrogram to analyze the correlation of frequencies over time. This type of patch allows us to correlate the most relevant frequencies for a particular emotion with the time they were uttered. ii) We propose the use of image coordinate encoding, an absolute positional encoding suitable for ViT. By normalizing the x, y coordinates of the image to -1 to 1 and concatenating them to the image, we can effectively provide valid absolute positional information for ViT. iii) Through feature map matching, the locality and location information of the teacher network is effectively transmitted to the student network. Teacher network is a ViT that contains locality of convolutional stem and absolute position information through image coordinate encoding, and student network is a structure that lacks positional encoding in the basic ViT structure. In feature map matching stage, we train through the mean absolute error (L1 loss) to minimize the difference between the feature maps of the two networks. To validate the proposed method, three emotion datasets (SAVEE, EmoDB, and CREMA-D) consisting of speech were converted into log-Mel spectrograms for comparison experiments. The experimental results show that the proposed method significantly outperforms the state-of-the-art methods in terms of weighted accuracy while requiring significantly fewer floating point operations (FLOPs). Overall, the proposed method offers an promising solution for SER by providing improved efficiency and performance.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)を用いた音声感情認識(SER)の精度向上手法を提案する。
提案手法は以下の独創性を有する。
一 経時的に周波数の相関を解析するために、対数メル分光器の垂直分割パッチを用いる。
この種のパッチは、特定の感情の最も関連性の高い周波数と、発声時間との相関を可能にする。
i) ViTに適した絶対位置符号化である画像座標符号化法を提案する。
画像の x, y 座標を -1 から 1 に正規化し、それらを画像に連結することにより、ViT に対して有効な絶対位置情報を効果的に提供できる。
三 特徴地図マッチングにより、教師ネットワークの地域性及び位置情報を学生ネットワークに効果的に送信する。
教師ネットワークは、画像座標符号化による畳み込み幹細胞と絶対位置情報の局所性を含むViTであり、学生ネットワークは、基本的なViT構造における位置符号化に欠ける構造である。
特徴写像マッチングの段階では、2つのネットワークの特徴写像間の差を最小限に抑えるために平均絶対誤差(L1損失)を訓練する。
提案手法を検証するために,音声からなる3つの感情データセット(SAVEE,EmoDB,CREMA-D)を対数メル分光器に変換して比較実験を行った。
実験結果から,提案手法は浮動小数点演算(FLOP)を著しく少なくしながら,重み付け精度で最先端の手法よりも優れていた。
提案手法は,効率と性能を向上し,SERに有望なソリューションを提供する。
関連論文リスト
- MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity [22.058051526676998]
データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。
視覚変換器(ViT)アーキテクチャにはいくつかのDFQ法が提案されているが、低ビット設定では有効性は得られていない。
そこで我々は,視覚障害者を対象とした新しいDFQ手法であるMimiQを提案する。
論文 参考訳(メタデータ) (2024-07-29T13:57:40Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Contrastive Feature Masking Open-Vocabulary Vision Transformer [44.03247177599605]
コントラスト特徴マスキングビジョントランス(CFM-ViT)
Open-vocabulary Object Detection (OVD)のための画像と領域レベルの同時学習を実現する画像テキスト事前学習手法
論文 参考訳(メタデータ) (2023-09-02T01:12:48Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - On Transfer Learning of Traditional Frequency and Time Domain Features
in Turning [1.0965065178451106]
我々は従来の信号処理ツールを用いて、回転実験から得られた加速度計信号のチャタを識別する。
タグ付けされた信号は、分類器の訓練に使用される。
その結果、フーリエスペクトルから抽出した特徴は、分類器を訓練し、同じ切断構成からデータをテストする際に最も有益であることがわかった。
論文 参考訳(メタデータ) (2020-08-28T14:47:57Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。