論文の概要: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
- arxiv url: http://arxiv.org/abs/2406.08931v1
- Date: Thu, 13 Jun 2024 09:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:44:22.533172
- Title: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
- Title(参考訳): マルチタスク学習におけるマルチリンガル未知話者感情認識の活用
- Authors: Arnav Goel, Medha Hira, Anubha Gupta,
- Abstract要約: 本稿では,コアテンションに基づく融合とマルチタスク学習を活用した新しいアーキテクチャであるCAMuLeNetを紹介する。
我々は,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,既存の5つのマルチ言語ベンチマークデータセット上で10倍の相互検証を用いてベンチマークした。
CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
- 参考スコア(独自算出の注目度): 4.396042489971948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advent of modern deep learning techniques has given rise to advancements in the field of Speech Emotion Recognition (SER). However, most systems prevalent in the field fail to generalize to speakers not seen during training. This study focuses on handling challenges of multilingual SER, specifically on unseen speakers. We introduce CAMuLeNet, a novel architecture leveraging co-attention based fusion and multitask learning to address this problem. Additionally, we benchmark pretrained encoders of Whisper, HuBERT, Wav2Vec2.0, and WavLM using 10-fold leave-speaker-out cross-validation on five existing multilingual benchmark datasets: IEMOCAP, RAVDESS, CREMA-D, EmoDB and CaFE and, release a novel dataset for SER on the Hindi language (BhavVani). CAMuLeNet shows an average improvement of approximately 8% over all benchmarks on unseen speakers determined by our cross-validation strategy.
- Abstract(参考訳): 現代の深層学習技術の進歩は、音声感情認識(SER)の分野で進歩をもたらした。
しかし、この分野で広く使われているほとんどのシステムは、訓練中に見えない話者に一般化することができない。
本研究は,多言語SERの課題,特に目に見えない話者に対処することに焦点を当てる。
本稿では,コアテンションに基づく融合とマルチタスク学習を利用した新しいアーキテクチャであるCAMuLeNetを紹介する。
さらに,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,IEMOCAP, RAVDESS, CREMA-D, EmoDB, CaFEの5つの既存ベンチマークデータセットに対して10倍のピークアウトクロスバリデーションを用いてベンチマークし,ヒンディー語(BhavVani)でSER用の新しいデータセットをリリースする。
CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
関連論文リスト
- Language-Universal Phonetic Representation in Multilingual Speech
Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。
我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。
当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文 参考訳(メタデータ) (2023-05-19T10:15:11Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。
全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文 参考訳(メタデータ) (2022-05-24T18:29:07Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Multilingual and Multilabel Emotion Recognition using Virtual
Adversarial Training [0.76146285961466]
マルチラベル感情認識のためのVATについて検討し,モデル性能を向上させるために,異なる言語からの未ラベルデータを活用することに焦点を当てた。
また,同量のラベル付きデータを用いた教師付き学習では,6.2%(アラビア語),3.8%(スペイン語),1.8%(英語)のパフォーマンス向上が見られた。
また、スペイン語、アラビア語、英語の既存の最先端を、それぞれ7%、4.5%、1%(ジャカード指数)で改善する。
論文 参考訳(メタデータ) (2021-11-11T12:47:44Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。