Fugu-MT 論文翻訳(概要): GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2306.07848v5
Date: Wed, 19 Jul 2023 04:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 17:05:08.468066
Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
Title（参考訳）: GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
Authors: Yu Pan, Lei Ma
Abstract要約: 音声感情認識のためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。 2つのGEmo-CLAPモデルは、異なる事前訓練されたモデルでベースラインのEmo-CLAPを一貫して上回っている。
参考スコア（独自算出の注目度）: 4.1009446969333165
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Contrastive learning based cross-modality pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for speech emotion recognition. Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing various self-supervised pre-trained models. Second, considering the importance of gender attribute in speech emotion modeling, the soft label based GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving the best recognition performance compared with recent state-of-the-art methods. Noticeably, the proposed WavLM-based ML-GEmo-CLAP obtains the best UAR of 80.16\% and WAR of 82.06\%.
Abstract（参考訳）: コントラスト学習に基づくクロスモダリティ事前学習手法は,近年,多様な分野において顕著な成功を収めている。本稿では,音声感情認識のための性分析型コントラスト言語-audio pretraining (clap) 手法であるgemo-clapを提案する。具体的には、まず感情CLAPモデル(Emo-CLAP)を構築し、様々な自己教師付き事前学習モデルを利用する。第二に、音声感情モデリングにおける性別属性の重要性を考慮すると、ソフトラベルに基づくGEmo-CLAP(SL-GEmo-CLAP)とマルチタスク学習に基づくGEmo-CLAP(ML-GEmo-CLAP)がさらに提案され、音声信号の感情情報と性別情報を統合し、より合理的な目的を形成する。 IEMOCAPの大規模実験により,提案した2つのGEmo-CLAPモデルは,異なる事前学習モデルのベースラインであるEmo-CLAPより一貫して優れており,また,最近の最先端手法と比較しても最高の認識性能が得られた。注目すべきは、WavLMベースのML-GEMO-CLAPが80.16\%、WARが82.06\%の最高のUARを取得することである。

関連論文リスト

Pretraining Large Brain Language Model for Active BCI: Silent Speech [31.13704519986318]
本稿では,脳-コンピュータインタフェース(BCI)システムにおけるサイレント音声デコーディングについて検討する。 12名の被験者から120時間以上の脳波記録を収集した。能動BCIのための無声音声を復号化するためのLBLM(Large Brain Language Model)を提案する。
論文参考訳（メタデータ） (2025-04-29T22:48:27Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文参考訳（メタデータ） (2024-09-13T21:58:20Z)
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition [7.828525577104307]
GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。 GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-05-03T14:58:46Z)
T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。 T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文参考訳（メタデータ） (2024-04-27T07:05:48Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。 HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。 1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文参考訳（メタデータ） (2024-03-13T17:42:03Z)
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文参考訳（メタデータ） (2024-01-31T09:23:16Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。