論文の概要: GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT
- arxiv url: http://arxiv.org/abs/2405.02151v1
- Date: Fri, 3 May 2024 14:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:36:11.022784
- Title: GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT
- Title(参考訳): GMP-ATL:HuBERTによる音声感情認識のためのマルチスケールPseudo-label拡張適応変換学習
- Authors: Yu Pan, Yuguang Yang, Heng Lu, Lei Ma, Jianjun Zhao,
- Abstract要約: 本稿では,HuBERTに基づく音声感情認識のための適応的伝達学習フレームワークであるGMP-ATLを提案する。
GMP-ATL は WAR が 80.0%,UAR が 82.0% であり, 最先端のユニモーダルSER 法を上回り, 優れた認識性能が得られることを示す。
- 参考スコア(独自算出の注目度): 7.828525577104307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, there is still potential for enhancement in the performance of these methods. In this paper, we present GMP-ATL (Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning), a novel HuBERT-based adaptive transfer learning framework for SER. Specifically, GMP-ATL initially employs the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level gender-augmented multi-scale pseudo-labels. Then, to fully leverage both obtained frame-level and utterance-level emotion labels, we incorporate model retraining and fine-tuning methods to further optimize GMP-ATL. Experiments on IEMOCAP show that our GMP-ATL achieves superior recognition performance, with a WAR of 80.0\% and a UAR of 82.0\%, surpassing state-of-the-art unimodal SER methods, while also yielding comparable results with multimodal SER approaches.
- Abstract(参考訳): 事前訓練された音声モデルの継続的な進化は、非常に進んだ音声感情認識(SER)を持つ。
しかし,これらの手法の性能向上にはまだまだ可能性がある。
本稿では,GMP-ATL(Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning)を提案する。
具体的には、GMP-ATLは最初、訓練済みの HuBERT を採用し、マルチタスク学習とマルチスケールk平均クラスタリングを実装して、フレームレベルのジェンダー強化されたマルチスケール擬似ラベルを取得する。
そして、得られたフレームレベルと発話レベルの両方の感情ラベルをフル活用するために、モデル再構成と微調整手法を導入し、GMP-ATLをさらに最適化する。
IEMOCAPの実験では、GMP-ATLは、WARが80.0\%、UARが82.0\%で、最先端のユニモーダルSER法を上回り、マルチモーダルSER法と同等の結果が得られることを示した。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Effective Tuning Strategies for Generalist Robot Manipulation Policies [45.36380662552082]
汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。
ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
論文 参考訳(メタデータ) (2024-10-02T04:00:25Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Bridging Multi-Task Learning and Meta-Learning: Towards Efficient
Training and Effective Adaptation [19.792537914018933]
マルチタスク学習(MTL)は、複数のタスクを共同で学習することで一般化することを目的としている。
現代のメタ学習は、テストフェーズ中にラベルが限定された目に見えないタスクを可能にし、それらに対する迅速な適応を期待する。
MTLは、勾配に基づくメタラーニング(GBML)アルゴリズムのクラスと同じ最適化形式を共有していることを示す。
論文 参考訳(メタデータ) (2021-06-16T17:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。