Fugu-MT 論文翻訳(概要): Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning

論文の概要: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning

arxiv url: http://arxiv.org/abs/2406.08931v2
Date: Thu, 20 Jun 2024 02:25:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 01:17:00.204622
Title: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
Title（参考訳）: マルチタスク学習におけるマルチリンガル未知話者感情認識の活用
Authors: Arnav Goel, Medha Hira, Anubha Gupta,
Abstract要約: 本稿では,コアテンションに基づく融合とマルチタスク学習を活用した新しいアーキテクチャであるCAMuLeNetを紹介する。我々は,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,既存の5つのマルチ言語ベンチマークデータセット上で10倍の相互検証を用いてベンチマークした。 CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
参考スコア（独自算出の注目度）: 4.396042489971948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advent of modern deep learning techniques has given rise to advancements in the field of Speech Emotion Recognition (SER). However, most systems prevalent in the field fail to generalize to speakers not seen during training. This study focuses on handling challenges of multilingual SER, specifically on unseen speakers. We introduce CAMuLeNet, a novel architecture leveraging co-attention based fusion and multitask learning to address this problem. Additionally, we benchmark pretrained encoders of Whisper, HuBERT, Wav2Vec2.0, and WavLM using 10-fold leave-speaker-out cross-validation on five existing multilingual benchmark datasets: IEMOCAP, RAVDESS, CREMA-D, EmoDB and CaFE and, release a novel dataset for SER on the Hindi language (BhavVani). CAMuLeNet shows an average improvement of approximately 8% over all benchmarks on unseen speakers determined by our cross-validation strategy.
Abstract（参考訳）: 現代の深層学習技術の進歩は、音声感情認識(SER)の分野で進歩をもたらした。しかし、この分野で広く使われているほとんどのシステムは、訓練中に見えない話者に一般化することができない。本研究は,多言語SERの課題,特に目に見えない話者に対処することに焦点を当てる。本稿では,コアテンションに基づく融合とマルチタスク学習を利用した新しいアーキテクチャであるCAMuLeNetを紹介する。さらに,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,IEMOCAP, RAVDESS, CREMA-D, EmoDB, CaFEの5つの既存ベンチマークデータセットに対して10倍のピークアウトクロスバリデーションを用いてベンチマークし,ヒンディー語(BhavVani)でSER用の新しいデータセットをリリースする。 CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。

関連論文リスト

Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning [4.396936958546459]
我々は、専用のクルド語コーパス上で、Wav2Vec 2.0の自己教師型学習モデルを訓練する。我々は他の言語から学んだ多言語表現に適応し、クルド語の音声的・音響的特徴を捉える。結果は、他の未研究言語で効果的なダイアリゼーションシステムを構築するための基盤を確立する。
論文参考訳（メタデータ） (2025-04-23T10:45:59Z)
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文参考訳（メタデータ） (2025-03-13T15:11:28Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文参考訳（メタデータ） (2023-05-19T10:15:11Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文参考訳（メタデータ） (2022-05-24T18:29:07Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Multilingual and Multilabel Emotion Recognition using Virtual Adversarial Training [0.76146285961466]
マルチラベル感情認識のためのVATについて検討し,モデル性能を向上させるために,異なる言語からの未ラベルデータを活用することに焦点を当てた。また,同量のラベル付きデータを用いた教師付き学習では,6.2%(アラビア語),3.8%(スペイン語),1.8%(英語)のパフォーマンス向上が見られた。また、スペイン語、アラビア語、英語の既存の最先端を、それぞれ7%、4.5%、1%(ジャカード指数)で改善する。
論文参考訳（メタデータ） (2021-11-11T12:47:44Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文参考訳（メタデータ） (2020-09-06T17:19:18Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。