論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.07848v2
- Date: Fri, 16 Jun 2023 04:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 16:56:13.166219
- Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- Title(参考訳): GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
- Authors: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu
- Abstract要約: 本稿では,ジェンダー指向のコントラスト言語事前学習(CLAP)モデルであるGEmo-CLAPを提案する。
2つのGEmo-CLAPアプローチは、異なる事前訓練されたモデルでベースラインのEmo-CLAPより一貫して優れている。
- 参考スコア(独自算出の注目度): 4.574192546294502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive learning based pretraining methods have recently exhibited
impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a
kind of efficient gender-attribute-enhanced contrastive language-audio
pretraining (CLAP) model for speech emotion recognition. To be specific, we
first build an effective emotion CLAP model Emo-CLAP for emotion recognition,
utilizing various self-supervised learning based pre-trained models. Then,
considering the importance of the gender attribute in speech emotion modeling,
two GEmo-CLAP approaches are further proposed to integrate the emotion and
gender information of speech signals, forming more reasonable objectives.
Extensive experiments on the IEMOCAP corpus demonstrate that our proposed two
GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with
different pre-trained models, while also achieving superior recognition
performance compared with other state-of-the-art methods.
- Abstract(参考訳): コントラスト学習に基づく事前学習手法は,近年,様々な分野において顕著な成功を収めている。
本稿では,音声感情認識のための,ジェンダー属性強調コントラスト言語-audio pretraining (clap) モデルの一種であるgemo-clapを提案する。
具体的には、まず感情認識のための効果的な感情CLAPモデルEmo-CLAPを構築し、様々な自己教師付き学習に基づく事前学習モデルを利用する。
そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。
iemocapコーパスの広範囲な実験により,本提案手法は異なる事前学習モデルでベースラインのemo-clapを一貫して上回り,他の最先端手法よりも優れた認識性能を達成していることが示された。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。
本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文 参考訳(メタデータ) (2024-09-13T21:58:20Z) - GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition [7.828525577104307]
GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。
GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T14:58:46Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Improving Acoustic Word Embeddings through Correspondence Training of
Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T17:42:03Z) - EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。
本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。
また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文 参考訳(メタデータ) (2024-01-31T09:23:16Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。