論文の概要: Dawn of the transformer era in speech emotion recognition: closing the
valence gap
- arxiv url: http://arxiv.org/abs/2203.07378v1
- Date: Mon, 14 Mar 2022 13:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 16:52:11.500655
- Title: Dawn of the transformer era in speech emotion recognition: closing the
valence gap
- Title(参考訳): 音声感情認識におけるトランスフォーマー時代の夜明け--ヴァレンスギャップを閉じる
- Authors: Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf,
Maximilian Schmitt, Florian Eyben, Bj\"orn W. Schuller
- Abstract要約: モデルサイズと事前学習データが下流の性能に及ぼす影響について検討する。
我々は、wav2vec 2.0 と HuBERT の事前訓練されたいくつかの変種を微調整し、クロスコーパスの一般化をテストする。
CNNベースのベースラインに比べて、トランスフォーマーベースのアーキテクチャは、小さな摂動に対してより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 8.47207715751994
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in transformer-based architectures which are pre-trained in
self-supervised manner have shown great promise in several machine learning
tasks. In the audio domain, such architectures have also been successfully
utilised in the field of speech emotion recognition (SER). However, existing
works have not evaluated the influence of model size and pre-training data on
downstream performance, and have shown limited attention to generalisation,
robustness, fairness, and efficiency. The present contribution conducts a
thorough analysis of these aspects on several pre-trained variants of wav2vec
2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and
valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test
cross-corpus generalisation. To the best of our knowledge, we obtain the top
performance for valence prediction without use of explicit linguistic
information, with a concordance correlation coefficient (CCC) of .638 on
MSP-Podcast. Furthermore, our investigations reveal that transformer-based
architectures are more robust to small perturbations compared to a CNN-based
baseline and fair with respect to biological sex groups, but not towards
individual speakers. Finally, we are the first to show that their extraordinary
success on valence is based on implicit linguistic information learnt during
fine-tuning of the transformer layers, which explains why they perform on-par
with recent multimodal approaches that explicitly utilise textual information.
Our findings collectively paint the following picture: transformer-based
architectures constitute the new state-of-the-art in SER, but further advances
are needed to mitigate remaining robustness and individual speaker issues. To
make our findings reproducible, we release the best performing model to the
community.
- Abstract(参考訳): 自己教師付き方式で事前訓練されたトランスフォーマーアーキテクチャの最近の進歩は、いくつかの機械学習タスクにおいて大きな可能性を秘めている。
音声領域では、そのようなアーキテクチャは音声感情認識(SER)の分野でもうまく活用されている。
しかし、既存の研究はモデルサイズや事前学習データの影響を下流のパフォーマンスに評価しておらず、一般化、堅牢性、公平性、効率性に限定的な注意を払っている。
本研究は,MSPポッドキャストの興奮,支配,有病率を微調整したwav2vec 2.0およびHuBERTの事前学習版について,また,IEMOCAPおよびMOSIを用いてクロスコーパス一般化の検証を行った。
我々は,msp-podcast における .638 の一致相関係数 (ccc) を用いて,明示的な言語情報を用いずに価数予測の最高性能を得る。
さらに, トランスフォーマーをベースとしたアーキテクチャは, CNNベースのベースラインに比べて小さな摂動に対してより堅牢であり, 生物学的性グループに対しては公正である。
最後に, 変圧器層を微調整する際に学習した暗黙的な言語情報に基づいて, テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等に機能することを示す。
トランスフォーマーベースのアーキテクチャは、serの新たな最先端を構成するが、強固さと個々の話者問題を軽減するために、さらなる進歩が必要である。
研究成果を再現するために,コミュニティに最高のパフォーマンスモデルをリリースする。
関連論文リスト
- Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition [41.05066959632938]
言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
本稿では,SERタスクにおける感情伝達を容易にするレイヤアンカリング機構を提案する。
本手法は2つの異なる言語感情コーパスを用いて評価する。
論文 参考訳(メタデータ) (2024-07-06T05:56:55Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Probing Speech Emotion Recognition Transformers for Linguistic Knowledge [7.81884995637243]
音声認識の微調整における言語情報の利用状況について検討する。
テキストの感情を変化させながら、韻律的に中性な発話を合成する。
変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
論文 参考訳(メタデータ) (2022-04-01T12:47:45Z) - Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention [8.95459272947319]
本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
論文 参考訳(メタデータ) (2021-12-27T16:43:31Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。