論文の概要: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
- arxiv url: http://arxiv.org/abs/2406.08931v1
- Date: Thu, 13 Jun 2024 09:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:44:22.533172
- Title: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
- Title(参考訳): マルチタスク学習におけるマルチリンガル未知話者感情認識の活用
- Authors: Arnav Goel, Medha Hira, Anubha Gupta,
- Abstract要約: 本稿では,コアテンションに基づく融合とマルチタスク学習を活用した新しいアーキテクチャであるCAMuLeNetを紹介する。
我々は,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,既存の5つのマルチ言語ベンチマークデータセット上で10倍の相互検証を用いてベンチマークした。
CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
- 参考スコア(独自算出の注目度): 4.396042489971948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advent of modern deep learning techniques has given rise to advancements in the field of Speech Emotion Recognition (SER). However, most systems prevalent in the field fail to generalize to speakers not seen during training. This study focuses on handling challenges of multilingual SER, specifically on unseen speakers. We introduce CAMuLeNet, a novel architecture leveraging co-attention based fusion and multitask learning to address this problem. Additionally, we benchmark pretrained encoders of Whisper, HuBERT, Wav2Vec2.0, and WavLM using 10-fold leave-speaker-out cross-validation on five existing multilingual benchmark datasets: IEMOCAP, RAVDESS, CREMA-D, EmoDB and CaFE and, release a novel dataset for SER on the Hindi language (BhavVani). CAMuLeNet shows an average improvement of approximately 8% over all benchmarks on unseen speakers determined by our cross-validation strategy.
- Abstract(参考訳): 現代の深層学習技術の進歩は、音声感情認識(SER)の分野で進歩をもたらした。
しかし、この分野で広く使われているほとんどのシステムは、訓練中に見えない話者に一般化することができない。
本研究は,多言語SERの課題,特に目に見えない話者に対処することに焦点を当てる。
本稿では,コアテンションに基づく融合とマルチタスク学習を利用した新しいアーキテクチャであるCAMuLeNetを紹介する。
さらに,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,IEMOCAP, RAVDESS, CREMA-D, EmoDB, CaFEの5つの既存ベンチマークデータセットに対して10倍のピークアウトクロスバリデーションを用いてベンチマークし,ヒンディー語(BhavVani)でSER用の新しいデータセットをリリースする。
CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval [0.9023847175654603]
CLASP(Contrastive Language-Speech Pretraining)は、音声テキスト情報検索に適した多言語表現である。
トレーニングでは,フィクションから宗教まで15の分野を対象とする音声テキストデータセットを新たに導入した。
複数の言語で評価した結果、CLASPはHITS@1、MRR、平均Rメトリクスで新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2024-12-17T16:38:10Z) - Language-Universal Phonetic Representation in Multilingual Speech
Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。
我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。
当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文 参考訳(メタデータ) (2023-05-19T10:15:11Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Multilingual and Multilabel Emotion Recognition using Virtual
Adversarial Training [0.76146285961466]
マルチラベル感情認識のためのVATについて検討し,モデル性能を向上させるために,異なる言語からの未ラベルデータを活用することに焦点を当てた。
また,同量のラベル付きデータを用いた教師付き学習では,6.2%(アラビア語),3.8%(スペイン語),1.8%(英語)のパフォーマンス向上が見られた。
また、スペイン語、アラビア語、英語の既存の最先端を、それぞれ7%、4.5%、1%(ジャカード指数)で改善する。
論文 参考訳(メタデータ) (2021-11-11T12:47:44Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。