論文の概要: ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets
- arxiv url: http://arxiv.org/abs/2406.10275v1
- Date: Tue, 11 Jun 2024 21:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:21:32.624386
- Title: ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets
- Title(参考訳): ExHuBERT:37の感情データセットのブロック拡張と細調整によるHumberTの強化
- Authors: Shahin Amiriparian, Filip Packań, Maurice Gerczuk, Björn W. Schuller,
- Abstract要約: EmoSet++は、37のデータセット、150,907のサンプル、合計119.5時間からなる包括的な多言語・多文化の音声感情コーパスである。
次に、バックボーン拡張とEmoSet++の微調整によって達成されたHuBERTの拡張バージョンであるExHuBERTを紹介します。
未知のデータセットに対する評価は、ExHuBERTの有効性を示し、様々なSERタスクに対する新しいベンチマークを設定した。
- 参考スコア(独自算出の注目度): 46.87176674510716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have shown great promise in speech emotion recognition (SER) by leveraging their pre-trained representations to capture emotion patterns in speech signals. To further enhance SER performance across various languages and domains, we propose a novel twofold approach. First, we gather EmoSet++, a comprehensive multi-lingual, multi-cultural speech emotion corpus with 37 datasets, 150,907 samples, and a total duration of 119.5 hours. Second, we introduce ExHuBERT, an enhanced version of HuBERT achieved by backbone extension and fine-tuning on EmoSet++. We duplicate each encoder layer and its weights, then freeze the first duplicate, integrating an extra zero-initialized linear layer and skip connections to preserve functionality and ensure its adaptability for subsequent fine-tuning. Our evaluation on unseen datasets shows the efficacy of ExHuBERT, setting a new benchmark for various SER tasks. Model and details on EmoSet++: https://huggingface.co/amiriparian/ExHuBERT.
- Abstract(参考訳): 基礎モデルは、事前訓練された表現を利用して、音声信号の感情パターンをキャプチャすることで、音声感情認識(SER)に大きな可能性を示してきた。
様々な言語やドメインのSER性能をさらに向上するために,新しい2次元アプローチを提案する。
EmoSet++は、37のデータセット、150,907のサンプル、合計119.5時間からなる包括的な多言語、多文化の音声感情コーパスである。
次に、バックボーン拡張とEmoSet++の微調整によって達成されたHuBERTの拡張バージョンであるExHuBERTを紹介します。
それぞれのエンコーダ層とその重みを複製し、最初の複製を凍結し、余分なゼロ初期化線形層を統合し、接続をスキップして機能を保ち、その後の微調整への適応性を確保する。
未知のデータセットに対する評価は、ExHuBERTの有効性を示し、様々なSERタスクに対する新しいベンチマークを設定した。
EmoSet++に関するモデルと詳細: https://huggingface.co/amiriparian/ExHuBERT
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve
Multimodal Sarcasm Detection [68.82684696740134]
我々は、MUStARDデータセットを最先端の言語、スピーチ、ビジュアルエンコーダでベンチマークし、提供しなければならないマルチモーダルリッチネスの総量を完全に活用する。
emphMUStARD++ Balancedと呼ばれるエクステンションを提案し、エクステンションのインスタンスを列車とテストセットの両方に分割してベンチマークし、さらに2.4%のマクロF1向上を実現した。
論文 参考訳(メタデータ) (2023-09-29T07:00:41Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Persian Emotion Detection using ParsBERT and Imbalanced Data Handling
Approaches [0.0]
EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。
EmoParsを評価し,ArmanEmoと比較した。
我々のモデルはArmanEmoとEmoParsでそれぞれ0.81と0.76のマクロ平均F1スコアに達する。
論文 参考訳(メタデータ) (2022-11-15T10:22:49Z) - Leveraging Label Correlations in a Multi-label Setting: A Case Study in
Emotion [0.0]
マルチラベル感情認識モデルにおけるラベル相関を利用して感情検出を改善する。
単言語BERTモデルを用いたSemEval 2018 Task 1 E-cにおいて、スペイン語、英語、アラビア語で最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-28T02:27:18Z) - Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion
Recognition [15.133202035812017]
本稿では,wav2vec 2.0やBERTといった最先端の事前学習モデルを利用したトランスファー学習を提案する。
また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。
論文 参考訳(メタデータ) (2022-07-11T08:20:53Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis
and Emotion Recognition [0.30458514384586394]
HeBERTは現代ヘブライ語テキストのトランスフォーマーベースのモデルである。
HebEMOはHeBERTを使って極性を検出し、Hebrewのユーザ生成コンテンツから感情を抽出するツールだ。
論文 参考訳(メタデータ) (2021-02-03T06:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。