論文の概要: Persian Speech Emotion Recognition by Fine-Tuning Transformers
- arxiv url: http://arxiv.org/abs/2402.07326v1
- Date: Sun, 11 Feb 2024 23:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:04:56.688532
- Title: Persian Speech Emotion Recognition by Fine-Tuning Transformers
- Title(参考訳): 微調整トランスフォーマによるペルシャ音声感情認識
- Authors: Minoo Shayaninasab, Bagher Babaali
- Abstract要約: 本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。
これらのモデルは以前のシステムの精度を大幅に向上させ、約65%から80%まで向上させた。
微調整過程における多言語性の影響を調べるため、これらのモデルは同じものを2回微調整する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Given the significance of speech emotion recognition, numerous methods have
been developed in recent years to create effective and efficient systems in
this domain. One of these methods involves the use of pretrained transformers,
fine-tuned to address this specific problem, resulting in high accuracy.
Despite extensive discussions and global-scale efforts to enhance these
systems, the application of this innovative and effective approach has received
less attention in the context of Persian speech emotion recognition. In this
article, we review the field of speech emotion recognition and its background,
with an emphasis on the importance of employing transformers in this context.
We present two models, one based on spectrograms and the other on the audio
itself, fine-tuned using the shEMO dataset. These models significantly enhance
the accuracy of previous systems, increasing it from approximately 65% to 80%
on the mentioned dataset. Subsequently, to investigate the effect of
multilinguality on the fine-tuning process, these same models are fine-tuned
twice. First, they are fine-tuned using the English IEMOCAP dataset, and then
they are fine-tuned with the Persian shEMO dataset. This results in an improved
accuracy of 82% for the Persian emotion recognition system. Keywords: Persian
Speech Emotion Recognition, shEMO, Self-Supervised Learning
- Abstract(参考訳): 近年,音声の感情認識の重要性を鑑み,この領域で効果的かつ効率的なシステムを構築するために多くの手法が開発されている。
これらの方法の1つは、この特定の問題に対処するために微調整された事前訓練されたトランスフォーマーの使用であり、その結果、精度が高い。
これらのシステムを強化するための広範な議論とグローバルな取り組みにもかかわらず、この革新的で効果的なアプローチの適用は、ペルシア語の感情認識の文脈ではあまり注目されなかった。
本稿では,この文脈におけるトランスフォーマーの導入の重要性に着目し,音声感情認識の分野とその背景について考察する。
本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。
これらのモデルは以前のシステムの精度を大幅に向上させ、前述のデータセットで約65%から80%に増加した。
その後、多言語性が微調整過程に与える影響を調べるために、これらのモデルが2回微調整される。
まず、英語のIEMOCAPデータセットを使用して微調整され、次にペルシャのshEMOデータセットで微調整される。
これにより、ペルシャ感情認識システムの精度が82%向上した。
キーワード:ペルシャ語音声感情認識、shEMO、自己監督学習
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。
この問題は、ラベル付き感情音声データの利用が限られていることに起因している。
本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T02:18:26Z) - Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。
本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。
対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。
論文 参考訳(メタデータ) (2024-09-06T03:17:25Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Emotion Recognition In Persian Speech Using Deep Neural Networks [0.0]
音声感情認識(SER)はヒューマン・コンピュータインタラクション(HCI)において非常に重要である
本稿では,SheEMOデータセット上での様々な深層学習手法について検討する。
論文 参考訳(メタデータ) (2022-04-28T16:02:05Z) - Probing Speech Emotion Recognition Transformers for Linguistic Knowledge [7.81884995637243]
音声認識の微調整における言語情報の利用状況について検討する。
テキストの感情を変化させながら、韻律的に中性な発話を合成する。
変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
論文 参考訳(メタデータ) (2022-04-01T12:47:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。