論文の概要: GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2405.02151v2
- Date: Sun, 16 Jun 2024 12:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:38:09.421924
- Title: GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition
- Title(参考訳): GMP-TL: 音声感情認識のためのジェンダー強化マルチスケールPseudo-label拡張トランスファーラーニング
- Authors: Yu Pan, Yuguang Yang, Heng Lu, Lei Ma, Jianjun Zhao,
- Abstract要約: GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。
GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 7.828525577104307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, current research typically relies on utterance-level emotion labels, inadequately capturing the complexity of emotions within a single utterance. In this paper, we introduce GMP-TL, a novel SER framework that employs gender-augmented multi-scale pseudo-label (GMP) based transfer learning to mitigate this gap. Specifically, GMP-TL initially uses the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level GMPs. Subsequently, to fully leverage frame-level GMPs and utterance-level emotion labels, a two-stage model fine-tuning approach is presented to further optimize GMP-TL. Experiments on IEMOCAP show that our GMP-TL attains a WAR of 80.0% and an UAR of 82.0%, achieving superior performance compared to state-of-the-art unimodal SER methods while also yielding comparable results to multimodal SER approaches.
- Abstract(参考訳): 事前訓練された音声モデルの継続的な進化は、非常に進んだ音声感情認識(SER)を持つ。
しかし、現在の研究は通常、発話レベルの感情ラベルに依存しており、単一の発話内での感情の複雑さを適切に捉えていない。
本稿では,ジェンダー強化型マルチスケール擬似ラベル(GMP)に基づくトランスファー学習を用いて,このギャップを緩和する新しいSERフレームワークであるGMP-TLを紹介する。
具体的には、GMP-TLは当初、訓練済みの HuBERT を使用しており、フレームレベルの GMP を取得するためにマルチタスク学習とマルチスケールk平均クラスタリングを実装している。
その後,フレームレベルのGMPと発話レベルの感情ラベルをフル活用するために,GMP-TLをさらに最適化するための2段階モデル微調整手法を提案する。
IEMOCAPの実験では、GMP-TLは80.0%、UARは82.0%に達し、最先端のユニモーダルSER法よりも優れた性能を示し、マルチモーダルSER法に匹敵する結果を得た。
関連論文リスト
- RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Large AI Model Empowered Multimodal Semantic Communications [51.17527319441436]
本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic
Segmentation [44.28355088831045]
まず、画像画素CLIP機能適応の必要性を実証し、次に、多視点プロンプト学習(MVP-SEG)を提供する。
MVP-SEGは画像画素適応の実現と開語彙セマンティックセマンティックセグメンテーションの解決に有効なソリューションである。
実験により、観察されたカテゴリから学習したマルチビュープロンプトは、目に見えないカテゴリに強く一般化されていることが示された。
論文 参考訳(メタデータ) (2023-04-14T07:01:47Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Bridging Multi-Task Learning and Meta-Learning: Towards Efficient
Training and Effective Adaptation [19.792537914018933]
マルチタスク学習(MTL)は、複数のタスクを共同で学習することで一般化することを目的としている。
現代のメタ学習は、テストフェーズ中にラベルが限定された目に見えないタスクを可能にし、それらに対する迅速な適応を期待する。
MTLは、勾配に基づくメタラーニング(GBML)アルゴリズムのクラスと同じ最適化形式を共有していることを示す。
論文 参考訳(メタデータ) (2021-06-16T17:58:23Z) - Encouraging Intra-Class Diversity Through a Reverse Contrastive Loss for
Better Single-Source Domain Generalization [4.298298881279499]
従来のディープラーニングアルゴリズムは、トレーニングデータの領域外でテストされると、一般化に失敗することが多い。
本稿では,テスト領域に関する情報が得られていない1つのトレーニング領域から,ディープラーニングアルゴリズムを一般化することを目的とする。
論文 参考訳(メタデータ) (2021-06-15T07:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。