Fugu-MT 論文翻訳(概要): GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2306.07848v8
Date: Wed, 13 Sep 2023 04:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 17:51:46.783531
Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition
Title（参考訳）: gemo-clap:正確な音声感情認識のためのジェンダー属性強調コントラスト言語-audio前訓練
Authors: Yu Pan, Yanni Hu, Yuguang Yang, Wen Fei, Jixun Yao, Heng Lu, Lei Ma, Jianjun Zhao
Abstract要約: 音声感情認識(SER)のためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。 2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルが提案され、音声信号の性別情報を統合する。
参考スコア（独自算出の注目度）: 8.00453887748979
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Contrastive cross-modality pretraining has recently exhibited impressive success in diverse fields, whereas there is limited research on their merits in speech emotion recognition (SER). In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for SER. Specifically, we first construct an effective emotion CLAP (Emo-CLAP) for SER, using pre-trained text and audio encoders. Second, given the significance of gender information in SER, two novel multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) and soft label based GEmo-CLAP (SL-GEmo-CLAP) models are further proposed to incorporate gender information of speech signals, forming more reasonable objectives. Experiments on IEMOCAP indicate that our proposed two GEmo-CLAPs consistently outperform Emo-CLAP with different pre-trained models. Remarkably, the proposed WavLM-based SL-GEmo-CLAP obtains the best UAR of 81.43% and WAR of 83.16%, which performs better than state-of-the-art SER methods by at least 3%. Our system is open-sourced on Github.
Abstract（参考訳）: 対照的なクロスモダリティプリトレーニングは、近年、さまざまな分野で素晴らしい成功を収めている一方、音声感情認識(ser)におけるそのメリットに関する研究は限られている。本稿では,SERのためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。具体的には、まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。第二に、SERにおけるジェンダー情報の重要性を考えると、2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルがさらに提案され、音声信号のジェンダー情報を組み込んでより合理的な目的を形成する。 IEMOCAPの実験から,提案した2つのGEmo-CLAPは,異なる事前学習モデルで一貫してEmo-CLAPを上回っていることが示された。 WavLMベースのSL-GEmo-CLAPは81.43%の最高のUARと83.16%のWARを取得し、最先端のSER法よりも少なくとも3%高い性能を発揮する。当社のシステムはGithubで公開されている。

関連論文リスト

Pretraining Large Brain Language Model for Active BCI: Silent Speech [31.13704519986318]
本稿では,脳-コンピュータインタフェース(BCI)システムにおけるサイレント音声デコーディングについて検討する。 12名の被験者から120時間以上の脳波記録を収集した。能動BCIのための無声音声を復号化するためのLBLM(Large Brain Language Model)を提案する。
論文参考訳（メタデータ） (2025-04-29T22:48:27Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文参考訳（メタデータ） (2024-09-13T21:58:20Z)
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition [7.828525577104307]
GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。 GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-05-03T14:58:46Z)
T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。 T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文参考訳（メタデータ） (2024-04-27T07:05:48Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。 HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。 1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文参考訳（メタデータ） (2024-03-13T17:42:03Z)
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文参考訳（メタデータ） (2024-01-31T09:23:16Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。