Fugu-MT 論文翻訳(概要): Persian Speech Emotion Recognition by Fine-Tuning Transformers

論文の概要: Persian Speech Emotion Recognition by Fine-Tuning Transformers

arxiv url: http://arxiv.org/abs/2402.07326v1
Date: Sun, 11 Feb 2024 23:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:04:56.688532
Title: Persian Speech Emotion Recognition by Fine-Tuning Transformers
Title（参考訳）: 微調整トランスフォーマによるペルシャ音声感情認識
Authors: Minoo Shayaninasab, Bagher Babaali
Abstract要約: 本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。これらのモデルは以前のシステムの精度を大幅に向上させ、約65%から80%まで向上させた。微調整過程における多言語性の影響を調べるため、これらのモデルは同じものを2回微調整する。
参考スコア（独自算出の注目度）: 1.0152838128195467
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Given the significance of speech emotion recognition, numerous methods have been developed in recent years to create effective and efficient systems in this domain. One of these methods involves the use of pretrained transformers, fine-tuned to address this specific problem, resulting in high accuracy. Despite extensive discussions and global-scale efforts to enhance these systems, the application of this innovative and effective approach has received less attention in the context of Persian speech emotion recognition. In this article, we review the field of speech emotion recognition and its background, with an emphasis on the importance of employing transformers in this context. We present two models, one based on spectrograms and the other on the audio itself, fine-tuned using the shEMO dataset. These models significantly enhance the accuracy of previous systems, increasing it from approximately 65% to 80% on the mentioned dataset. Subsequently, to investigate the effect of multilinguality on the fine-tuning process, these same models are fine-tuned twice. First, they are fine-tuned using the English IEMOCAP dataset, and then they are fine-tuned with the Persian shEMO dataset. This results in an improved accuracy of 82% for the Persian emotion recognition system. Keywords: Persian Speech Emotion Recognition, shEMO, Self-Supervised Learning
Abstract（参考訳）: 近年,音声の感情認識の重要性を鑑み,この領域で効果的かつ効率的なシステムを構築するために多くの手法が開発されている。これらの方法の1つは、この特定の問題に対処するために微調整された事前訓練されたトランスフォーマーの使用であり、その結果、精度が高い。これらのシステムを強化するための広範な議論とグローバルな取り組みにもかかわらず、この革新的で効果的なアプローチの適用は、ペルシア語の感情認識の文脈ではあまり注目されなかった。本稿では,この文脈におけるトランスフォーマーの導入の重要性に着目し,音声感情認識の分野とその背景について考察する。本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。これらのモデルは以前のシステムの精度を大幅に向上させ、前述のデータセットで約65%から80%に増加した。その後、多言語性が微調整過程に与える影響を調べるために、これらのモデルが2回微調整される。まず、英語のIEMOCAPデータセットを使用して微調整され、次にペルシャのshEMOデータセットで微調整される。これにより、ペルシャ感情認識システムの精度が82%向上した。キーワード:ペルシャ語音声感情認識、shEMO、自己監督学習

関連論文リスト

Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文参考訳（メタデータ） (2025-06-02T13:46:02Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。この問題は、ラベル付き感情音声データの利用が限られていることに起因している。本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文参考訳（メタデータ） (2024-11-30T02:18:26Z)
Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。
論文参考訳（メタデータ） (2024-09-06T03:17:25Z)
Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文参考訳（メタデータ） (2023-12-10T05:17:39Z)
SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。実験の結果,セム情報により音声認識の有効性が向上することが示された。さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文参考訳（メタデータ） (2023-09-04T08:35:05Z)
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-14T15:50:13Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
Emotion Recognition In Persian Speech Using Deep Neural Networks [0.0]
音声感情認識(SER)はヒューマン・コンピュータインタラクション(HCI)において非常に重要である本稿では,SheEMOデータセット上での様々な深層学習手法について検討する。
論文参考訳（メタデータ） (2022-04-28T16:02:05Z)
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge [7.81884995637243]
音声認識の微調整における言語情報の利用状況について検討する。テキストの感情を変化させながら、韻律的に中性な発話を合成する。変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
論文参考訳（メタデータ） (2022-04-01T12:47:45Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Knowledge Distillation from BERT Transformer to Speech Transformer for Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文参考訳（メタデータ） (2021-08-05T13:08:13Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。 mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文参考訳（メタデータ） (2021-02-25T03:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。