論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Accurate Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.07848v8
- Date: Wed, 13 Sep 2023 04:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:51:46.783531
- Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio
Pretraining for Accurate Speech Emotion Recognition
- Title(参考訳): gemo-clap:正確な音声感情認識のためのジェンダー属性強調コントラスト言語-audio前訓練
- Authors: Yu Pan, Yanni Hu, Yuguang Yang, Wen Fei, Jixun Yao, Heng Lu, Lei Ma,
Jianjun Zhao
- Abstract要約: 音声感情認識(SER)のためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。
まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。
2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルが提案され、音声信号の性別情報を統合する。
- 参考スコア(独自算出の注目度): 8.00453887748979
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive cross-modality pretraining has recently exhibited impressive
success in diverse fields, whereas there is limited research on their merits in
speech emotion recognition (SER). In this paper, we propose GEmo-CLAP, a kind
of gender-attribute-enhanced contrastive language-audio pretraining (CLAP)
method for SER. Specifically, we first construct an effective emotion CLAP
(Emo-CLAP) for SER, using pre-trained text and audio encoders. Second, given
the significance of gender information in SER, two novel multi-task learning
based GEmo-CLAP (ML-GEmo-CLAP) and soft label based GEmo-CLAP (SL-GEmo-CLAP)
models are further proposed to incorporate gender information of speech
signals, forming more reasonable objectives. Experiments on IEMOCAP indicate
that our proposed two GEmo-CLAPs consistently outperform Emo-CLAP with
different pre-trained models. Remarkably, the proposed WavLM-based SL-GEmo-CLAP
obtains the best UAR of 81.43% and WAR of 83.16%, which performs better than
state-of-the-art SER methods by at least 3%. Our system is open-sourced on
Github.
- Abstract(参考訳): 対照的なクロスモダリティプリトレーニングは、近年、さまざまな分野で素晴らしい成功を収めている一方、音声感情認識(ser)におけるそのメリットに関する研究は限られている。
本稿では,SERのためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。
具体的には、まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。
第二に、SERにおけるジェンダー情報の重要性を考えると、2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルがさらに提案され、音声信号のジェンダー情報を組み込んでより合理的な目的を形成する。
IEMOCAPの実験から,提案した2つのGEmo-CLAPは,異なる事前学習モデルで一貫してEmo-CLAPを上回っていることが示された。
WavLMベースのSL-GEmo-CLAPは81.43%の最高のUARと83.16%のWARを取得し、最先端のSER法よりも少なくとも3%高い性能を発揮する。
当社のシステムはGithubで公開されている。
関連論文リスト
- GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT [7.828525577104307]
本稿では,HuBERTに基づく音声感情認識のための適応的伝達学習フレームワークであるGMP-ATLを提案する。
GMP-ATL は WAR が 80.0%,UAR が 82.0% であり, 最先端のユニモーダルSER 法を上回り, 優れた認識性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T14:58:46Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Improving Acoustic Word Embeddings through Correspondence Training of
Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T17:42:03Z) - EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。
本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。
また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文 参考訳(メタデータ) (2024-01-31T09:23:16Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation [55.575224613422726]
コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。