論文の概要: A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2304.11472v1
- Date: Sat, 22 Apr 2023 19:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:09:50.510222
- Title: A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition
- Title(参考訳): 音声感情認識のための事前学習音声と音声埋め込みの比較検討
- Authors: Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma
- Abstract要約: 音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models (PTMs) have shown great promise in the speech and audio
domain. Embeddings leveraged from these models serve as inputs for learning
algorithms with applications in various downstream tasks. One such crucial task
is Speech Emotion Recognition (SER) which has a wide range of applications,
including dynamic analysis of customer calls, mental health assessment, and
personalized language learning. PTM embeddings have helped advance SER,
however, a comprehensive comparison of these PTM embeddings that consider
multiple facets such as embedding model architecture, data used for
pre-training, and the pre-training procedure being followed is missing. A
thorough comparison of PTM embeddings will aid in the faster and more efficient
development of models and enable their deployment in real-world scenarios. In
this work, we exploit this research gap and perform a comparative analysis of
embeddings extracted from eight speech and audio PTMs (wav2vec 2.0, data2vec,
wavLM, UniSpeech-SAT, wav2clip, YAMNet, x-vector, ECAPA). We perform an
extensive empirical analysis with four speech emotion datasets (CREMA-D, TESS,
SAVEE, Emo-DB) by training three algorithms (XGBoost, Random Forest, FCN) on
the derived embeddings. The results of our study indicate that the best
performance is achieved by algorithms trained on embeddings derived from PTMs
trained for speaker recognition followed by wav2clip and UniSpeech-SAT. This
can relay that the top performance by embeddings from speaker recognition PTMs
is most likely due to the model taking up information about numerous speech
features such as tone, accent, pitch, and so on during its speaker recognition
training. Insights from this work will assist future studies in their selection
of embeddings for applications related to SER.
- Abstract(参考訳): 事前学習モデル(ptm)は、音声と音声の領域において大きな可能性を秘めている。
これらのモデルから活用された埋め込みは、様々な下流タスクに応用された学習アルゴリズムのインプットとして機能する。
このような重要な課題のひとつは、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある音声感情認識(SER)である。
PTM埋め込みは、SERの進歩に役立っているが、組込みモデルアーキテクチャ、事前訓練に使用されるデータ、続く事前訓練手順など、複数の面を考慮したこれらのPTM埋め込みの包括的比較は欠落している。
PTM埋め込みの徹底的な比較は、より高速で効率的なモデル開発を支援し、実際のシナリオへの展開を可能にする。
本研究では,この研究ギャップを利用して,8つの音声および音声PTM(wav2vec 2.0, data2vec, wavLM, UniSpeech-SAT, wav2clip, YAMNet, x-vector, ECAPA)から抽出した埋め込みの比較分析を行う。
本研究では,3つのアルゴリズム (XGBoost, Random Forest, FCN) を学習し, 4つの音声感情データセット (CREMA-D, TESS, SAVEE, Emo-DB) を用いた実験的検討を行った。
本研究の結果から, 話者認識のためのPTMから学習したアルゴリズムと, wav2clip と UniSpeech-SAT を併用することにより, 最高の性能が得られることが示された。
これは、話者認識訓練中に、トーン、アクセント、ピッチなどの多数の音声特徴に関する情報を取り出すモデルにより、話者認識 PTM からの埋め込みによるトップパフォーマンスが最も高い可能性が示唆される。
この研究からの洞察は、serに関連するアプリケーションの埋め込みの選択における将来の研究に役立つだろう。
関連論文リスト
- Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。