論文の概要: A vector quantized masked autoencoder for speech emotion recognition
- arxiv url: http://arxiv.org/abs/2304.11117v1
- Date: Fri, 21 Apr 2023 16:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 13:56:48.210835
- Title: A vector quantized masked autoencoder for speech emotion recognition
- Title(参考訳): ベクトル量子化マスク自動符号化による音声認識
- Authors: Samir Sadok, Simon Leglaive, Renaud S\'eguier
- Abstract要約: 本稿では,音声信号から感情を認識するための自己教師型モデルVQ-MAE-Sを提案する。
実験結果から,VoxCeleb2データセット上で事前学習したVQ-MAE-Sモデルが,生のスペクトル表現に係わるMAEより優れていることが示された。
- 参考スコア(独自算出の注目度): 3.985839436158186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen remarkable progress in speech emotion recognition
(SER), thanks to advances in deep learning techniques. However, the limited
availability of labeled data remains a significant challenge in the field.
Self-supervised learning has recently emerged as a promising solution to
address this challenge. In this paper, we propose the vector quantized masked
autoencoder for speech (VQ-MAE-S), a self-supervised model that is fine-tuned
to recognize emotions from speech signals. The VQ-MAE-S model is based on a
masked autoencoder (MAE) that operates in the discrete latent space of a
vector-quantized variational autoencoder. Experimental results show that the
proposed VQ-MAE-S model, pre-trained on the VoxCeleb2 dataset and fine-tuned on
emotional speech data, outperforms an MAE working on the raw spectrogram
representation and other state-of-the-art methods in SER.
- Abstract(参考訳): 近年,深層学習技術の進歩により,音声感情認識(SER)が著しく進歩している。
しかし、ラベル付きデータの可用性の制限は、この分野において依然として大きな課題である。
自己教師型学習はこの課題に対処するための有望なソリューションとして最近登場した。
本稿では,音声信号から感情を認識するために微調整された自己教師付きモデルvq-mae-sを提案する。
vq-mae-sモデルはベクトル量子化変分オートエンコーダの離散的潜在空間で動作するマスク付きオートエンコーダ(mae)に基づいている。
実験の結果,voxceleb2データセットに事前学習し,感情音声データに微調整したvq-mae-sモデルが,生のスペクトログラム表現やserの最先端手法に匹敵することがわかった。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Boosting Continuous Emotion Recognition with Self-Pretraining using Masked Autoencoders, Temporal Convolutional Networks, and Transformers [3.951847822557829]
本研究では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeに取り組む。
本研究は,継続的な感情認識を改善するための新しいアプローチを提唱する。
我々は、顔データセット上でMasked Autoencoders(MAE)を事前トレーニングし、その後、式(Expr)ラベルを付加したaff-wild2データセットを微調整することで、これを実現する。
論文 参考訳(メタデータ) (2024-03-18T03:28:01Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using
Cochlear Cepstrum-based Masking for Speech Emotion Recognition [5.974778743092437]
CochCeps-Augmentは、音声表現の自己教師付きコントラスト学習のための、バイオインスパイアされたマスキング強化タスクである。
以上の結果から,CochCeps-Augmentが音声感情認識解析の標準ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-10T11:13:13Z) - A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
本稿では,ベクトル量子化マスク付きオートエンコーダ(MAE)であるVQ-MAE-AVモデルを提案する。
音声と視覚のモダリティを融合させ,音声視覚音声系列の局所的およびグローバルな表現を学習するために,自己・横断的機構を持つマルチモーダルMAEを提案する。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-05T14:19:46Z) - A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond [64.85076239939336]
視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。
マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
論文 参考訳(メタデータ) (2022-07-30T09:59:28Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。