論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.07848v6
- Date: Tue, 8 Aug 2023 03:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:45:45.504891
- Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- Title(参考訳): GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
- Authors: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu
- Abstract要約: 音声感情認識のためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。
2つのGEmo-CLAPモデルは、ベースラインであるEmo-CLAPより一貫して優れている。
提案されたSL-GEMO-CLAPモデルは、最高のUARは81.43%、WARは83.16%である。
- 参考スコア(独自算出の注目度): 4.574192546294502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive learning based cross-modality pretraining approaches have
recently exhibited impressive success in diverse fields. In this paper, we
propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive
language-audio pretraining (CLAP) method for speech emotion recognition.
Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing
pre-trained WavLM and RoBERTa models. Second, given the significance of the
gender attribute in speech emotion modeling, two novel soft label based
GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP)
models are further proposed to integrate emotion and gender information of
speech signals, forming more reasonable objectives. Extensive experiments on
IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the
baseline Emo-CLAP, while also achieving the best recognition performance
compared with recent state-of-the-art methods. Noticeably, the proposed
SL-GEmo-CLAP model achieves the best UAR of 81.43\% and WAR of 83.16\% which
performs better than other state-of-the-art SER methods by at least 3\%.
- Abstract(参考訳): コントラスト学習に基づくクロスモダリティ事前学習アプローチは、近年、様々な分野で素晴らしい成功を収めている。
本稿では,音声感情認識のための性分析型コントラスト言語-audio pretraining (clap) 手法であるgemo-clapを提案する。
具体的には,WavLMモデルとRoBERTaモデルを用いて,感情CLAPモデル(Emo-CLAP)を構築した。
第二に、音声感情モデリングにおけるジェンダー属性の重要性から、2つのソフトラベルに基づくGEmo-CLAP(SL-GEmo-CLAP)とマルチタスク学習に基づくGEmo-CLAP(ML-GEmo-CLAP)モデルが提案され、音声信号の感情とジェンダー情報を統合し、より合理的な目的を形成する。
IEMOCAPの大規模実験により,提案した2つのGEmo-CLAPモデルがベースラインであるEmo-CLAPより一貫して優れており,また最近の最先端手法と比較して最高の認識性能が得られた。
特に、提案したSL-GEMO-CLAPモデルは、81.43\%の最高のUARと83.16\%のWARを達成する。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。
本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文 参考訳(メタデータ) (2024-09-13T21:58:20Z) - GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition [7.828525577104307]
GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。
GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T14:58:46Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Improving Acoustic Word Embeddings through Correspondence Training of
Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T17:42:03Z) - EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。
本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。
また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文 参考訳(メタデータ) (2024-01-31T09:23:16Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。