論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.07848v1
- Date: Tue, 13 Jun 2023 15:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:15:00.536828
- Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Speech Emotion Recognition
- Title(参考訳): GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
- Authors: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu
- Abstract要約: 音声感情認識(SER)のためのジェンダー属性付きCLAPモデルであるGEmo-CLAPを提案する。
2つのGEmo-CLAPアプローチは、音声信号の感情と性別情報を統合し、より合理的な目的を形成する。
IEMOCAPコーパスを用いた実験により,提案した2つのGEmo-CLAPアプローチは,異なる事前学習モデルを用いて,ベースラインのEmo-CLAPよりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 4.574192546294502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Audio Pretraining (CLAP) has recently exhibited
impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a
kind of efficient gender-attribute-enhanced CLAP model for speech emotion
recognition (SER). Specifically, we first build an effective emotion CLAP model
termed Emo-CLAP for SER, utilizing various self-supervised learning based
pre-trained models. Then, considering the importance of the gender attribute in
speech emotion modeling, two GEmo-CLAP approaches are further proposed to
integrate the emotion and gender information of speech signals, forming more
reasonable objectives. Extensive experiments conducted on the IEMOCAP corpus
demonstrate that our proposed two GEmo-CLAP approaches consistently outperform
the baseline Emo-CLAP with different pre-trained models, while also achieving
superior recognition performance compared with other state-of-the-art methods.
- Abstract(参考訳): 対照的に、CLAP(Contrastive Language-Audio Pretraining)は様々な分野で大きな成功を収めている。
本稿では,音声感情認識(SER)のためのジェンダー属性強化CLAPモデルであるGEmo-CLAPを提案する。
具体的には,SERのための感情CLAPモデルであるEmo-CLAPを構築する。
そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。
IEMOCAPコーパスで行った大規模な実験により,提案した2つのGEmo-CLAPアプローチは,異なる事前学習モデルでベースラインのEmo-CLAPを一貫して上回り,また,他の最先端手法と比較して優れた認識性能が得られた。
関連論文リスト
- GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT [7.828525577104307]
本稿では,HuBERTに基づく音声感情認識のための適応的伝達学習フレームワークであるGMP-ATLを提案する。
GMP-ATL は WAR が 80.0%,UAR が 82.0% であり, 最先端のユニモーダルSER 法を上回り, 優れた認識性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T14:58:46Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Improving Acoustic Word Embeddings through Correspondence Training of
Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T17:42:03Z) - EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。
本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。
また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文 参考訳(メタデータ) (2024-01-31T09:23:16Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation [55.575224613422726]
コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。