論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.07848v5
- Date: Wed, 19 Jul 2023 04:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:05:08.468066
- Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- Title(参考訳): GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
- Authors: Yu Pan, Lei Ma
- Abstract要約: 音声感情認識のためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。
2つのGEmo-CLAPモデルは、異なる事前訓練されたモデルでベースラインのEmo-CLAPを一貫して上回っている。
- 参考スコア(独自算出の注目度): 4.1009446969333165
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive learning based cross-modality pretraining methods have recently
exhibited impressive success in diverse fields. In this paper, we propose
GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio
pretraining (CLAP) method for speech emotion recognition. Specifically, a novel
emotion CLAP model (Emo-CLAP) is first built, utilizing various self-supervised
pre-trained models. Second, considering the importance of gender attribute in
speech emotion modeling, the soft label based GEmo-CLAP (SL-GEmo-CLAP) and
multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) are further proposed to
integrate the emotion and gender information of speech signals, forming more
reasonable objectives. Extensive experiments on IEMOCAP show that our proposed
two GEmo-CLAP models consistently outperform the baseline Emo-CLAP with
different pre-trained models, while also achieving the best recognition
performance compared with recent state-of-the-art methods. Noticeably, the
proposed WavLM-based ML-GEmo-CLAP obtains the best UAR of 80.16\% and WAR of
82.06\%.
- Abstract(参考訳): コントラスト学習に基づくクロスモダリティ事前学習手法は,近年,多様な分野において顕著な成功を収めている。
本稿では,音声感情認識のための性分析型コントラスト言語-audio pretraining (clap) 手法であるgemo-clapを提案する。
具体的には、まず感情CLAPモデル(Emo-CLAP)を構築し、様々な自己教師付き事前学習モデルを利用する。
第二に、音声感情モデリングにおける性別属性の重要性を考慮すると、ソフトラベルに基づくGEmo-CLAP(SL-GEmo-CLAP)とマルチタスク学習に基づくGEmo-CLAP(ML-GEmo-CLAP)がさらに提案され、音声信号の感情情報と性別情報を統合し、より合理的な目的を形成する。
IEMOCAPの大規模実験により,提案した2つのGEmo-CLAPモデルは,異なる事前学習モデルのベースラインであるEmo-CLAPより一貫して優れており,また,最近の最先端手法と比較しても最高の認識性能が得られた。
注目すべきは、WavLMベースのML-GEMO-CLAPが80.16\%、WARが82.06\%の最高のUARを取得することである。
関連論文リスト
- GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT [7.828525577104307]
本稿では,HuBERTに基づく音声感情認識のための適応的伝達学習フレームワークであるGMP-ATLを提案する。
GMP-ATL は WAR が 80.0%,UAR が 82.0% であり, 最先端のユニモーダルSER 法を上回り, 優れた認識性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T14:58:46Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Improving Acoustic Word Embeddings through Correspondence Training of
Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T17:42:03Z) - EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。
本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。
また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文 参考訳(メタデータ) (2024-01-31T09:23:16Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation [55.575224613422726]
コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。