Fugu-MT 論文翻訳(概要): GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

論文の概要: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2306.07848v1
Date: Tue, 13 Jun 2023 15:28:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 13:15:00.536828
Title: GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
Title（参考訳）: GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition
Authors: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu
Abstract要約: 音声感情認識(SER)のためのジェンダー属性付きCLAPモデルであるGEmo-CLAPを提案する。 2つのGEmo-CLAPアプローチは、音声信号の感情と性別情報を統合し、より合理的な目的を形成する。 IEMOCAPコーパスを用いた実験により,提案した2つのGEmo-CLAPアプローチは,異なる事前学習モデルを用いて,ベースラインのEmo-CLAPよりも一貫して優れていることが示された。
参考スコア（独自算出の注目度）: 4.574192546294502
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Contrastive Language-Audio Pretraining (CLAP) has recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced CLAP model for speech emotion recognition (SER). Specifically, we first build an effective emotion CLAP model termed Emo-CLAP for SER, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments conducted on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods.
Abstract（参考訳）: 対照的に、CLAP(Contrastive Language-Audio Pretraining)は様々な分野で大きな成功を収めている。本稿では,音声感情認識(SER)のためのジェンダー属性強化CLAPモデルであるGEmo-CLAPを提案する。具体的には,SERのための感情CLAPモデルであるEmo-CLAPを構築する。そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。 IEMOCAPコーパスで行った大規模な実験により,提案した2つのGEmo-CLAPアプローチは,異なる事前学習モデルでベースラインのEmo-CLAPを一貫して上回り,また,他の最先端手法と比較して優れた認識性能が得られた。

関連論文リスト

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding [53.55135022958052]
閉集合行動理解のためのGAD(Generation-Assisted Discriminative Discriminative)を提案する。 GADは微調整時にのみ動作し、MLLMの事前訓練と完全な互換性を保つ。時間的行動理解ベンチマークの実験により、GADは生成法よりも精度と効率を向上することが示された。
論文参考訳（メタデータ） (2026-03-03T03:02:01Z)
Pretraining Large Brain Language Model for Active BCI: Silent Speech [31.13704519986318]
本稿では,脳-コンピュータインタフェース(BCI)システムにおけるサイレント音声デコーディングについて検討する。 12名の被験者から120時間以上の脳波記録を収集した。能動BCIのための無声音声を復号化するためのLBLM(Large Brain Language Model)を提案する。
論文参考訳（メタデータ） (2025-04-29T22:48:27Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文参考訳（メタデータ） (2024-09-13T21:58:20Z)
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition [7.828525577104307]
GMP-TLは、ジェンダー強化されたマルチスケール擬似ラベル(GMP)に基づくトランスファー学習を利用する新しいSERフレームワークである。 GMP-TLは80.0%のWARと82.0%のUARを達成でき、最先端のユニモーダルSER法よりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-05-03T14:58:46Z)
T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。 T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文参考訳（メタデータ） (2024-04-27T07:05:48Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations [23.56580783289533]
自己教師付き学習(SSL)に基づく音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。 HuBERTベースのCAEモデルは、すべての言語で単語識別の最良の結果を得る。 1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
論文参考訳（メタデータ） (2024-03-13T17:42:03Z)
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning [5.093488222068705]
本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。本稿では、EnCodecとCLAPという2つの音響表現モデルと、事前訓練された言語モデルBARTを用いる。また,事前学習した言語モデルの音響的認識を改善するマスクドモデリングという新たな学習目標も導入する。
論文参考訳（メタデータ） (2024-01-31T09:23:16Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。