論文の概要: Vesper: A Compact and Effective Pretrained Model for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2307.10757v1
- Date: Thu, 20 Jul 2023 10:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:41:28.801415
- Title: Vesper: A Compact and Effective Pretrained Model for Speech Emotion
Recognition
- Title(参考訳): Vesper: 音声認識のためのコンパクトで効果的な事前学習モデル
- Authors: Weidong Chen, Xiaofen Xing, Peihao Chen, Xiangmin Xu
- Abstract要約: 本稿では,一般的な大規模事前学習モデル(PTM)を音声感情認識タスクに適用するパラダイムを提案する。
本稿では,Vesperという,感情固有の事前学習エンコーダを提案する。
ヴェスパーは、アコースティックおよびセマンティック表現をキャプチャする能力を改善するために階層的およびクロスレイヤーな自己スーパービジョンを使用している。
- 参考スコア(独自算出の注目度): 19.342235745056943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a paradigm that adapts general large-scale pretrained
models (PTMs) to speech emotion recognition task. Although PTMs shed new light
on artificial general intelligence, they are constructed with general tasks in
mind, and thus, their efficacy for specific tasks can be further improved.
Additionally, employing PTMs in practical applications can be challenging due
to their considerable size. Above limitations spawn another research direction,
namely, optimizing large-scale PTMs for specific tasks to generate
task-specific PTMs that are both compact and effective. In this paper, we focus
on the speech emotion recognition task and propose an improved emotion-specific
pretrained encoder called Vesper. Vesper is pretrained on a speech dataset
based on WavLM and takes into account emotional characteristics. To enhance
sensitivity to emotional information, Vesper employs an emotion-guided masking
strategy to identify the regions that need masking. Subsequently, Vesper
employs hierarchical and cross-layer self-supervision to improve its ability to
capture acoustic and semantic representations, both of which are crucial for
emotion recognition. Experimental results on the IEMOCAP, MELD, and CREMA-D
datasets demonstrate that Vesper with 4 layers outperforms WavLM Base with 12
layers, and the performance of Vesper with 12 layers surpasses that of WavLM
Large with 24 layers.
- Abstract(参考訳): 本稿では,一般的な大規模事前学習モデル(PTM)を音声感情認識タスクに適用するパラダイムを提案する。
PTMは、人工知能に新たな光を当てているが、それらは一般的なタスクを念頭に構築されており、特定のタスクに対する有効性をさらに向上することができる。
さらに、実用アプリケーションにPTMを採用することは、かなりのサイズであるため、難しい可能性がある。
上述の制限は、大規模PTMを特定のタスクに最適化し、コンパクトかつ効果的にタスク固有のPTMを生成するという別の研究方向を生み出します。
本稿では,音声感情認識タスクに着目し,vesperと呼ばれる感情特異的事前学習エンコーダを提案する。
Vesperは、WavLMに基づく音声データセットで事前訓練され、感情的特徴を考慮に入れている。
感情情報に対する感受性を高めるため、ヴェスパーは感情誘導マスキング戦略を採用し、マスキングが必要な地域を特定する。
その後、vesperは階層的および横断的な自己スーパービジョンを採用し、音響的および意味的表現をキャプチャする能力を向上させる。
iemocap、meld、crema-dのデータセットにおける実験結果は、4層からなるvesperが12層のwavlmベースよりも優れており、12層のvesperの性能は24層のwavlmよりも大きいことを示している。
関連論文リスト
- A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition [41.05066959632938]
言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
本稿では,SERタスクにおける感情伝達を容易にするレイヤアンカリング機構を提案する。
本手法は2つの異なる言語感情コーパスを用いて評価する。
論文 参考訳(メタデータ) (2024-07-06T05:56:55Z) - Adapting WavLM for Speech Emotion Recognition [0.0]
MSP Podcast Corpus における音声感情認識タスクのための WavLM Large モデルの微調整戦略について検討する。
次に、この結果をまとめ、2024年の音声感情認識チャレンジへの提出に使った最終モデルについて述べる。
論文 参考訳(メタデータ) (2024-05-07T16:53:42Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Are Paralinguistic Representations all that is needed for Speech Emotion Recognition? [1.9686770963118383]
パラ言語的PTM表現は、音声感情認識(SER)のための最先端(SOTA)性能を示す。
これらの表現は英語以外の言語環境では評価されていない。
これにより、複数の言語におけるSERに対するパラ言語的PTM表現の有効性へのアクセスが困難になる。
論文 参考訳(メタデータ) (2024-02-02T17:17:42Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Leveraging Semantic Information for Efficient Self-Supervised Emotion
Recognition with Audio-Textual Distilled Models [15.16865739526702]
本稿では,HuBERTをSSLモデルの例として捉え,各レイヤの関連性を分析して音声感情認識を行う。
浅い層は覚醒的認識においてより重要であり,深い層は原子価にとってより重要であることを示す。
本稿では,大規模なSSLモデルのトレーニング可能なパラメータの20%しか持たないオーディオテキスト蒸留SSLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:29:33Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。