論文の概要: On the use of Self-supervised Pre-trained Acoustic and Linguistic
Features for Continuous Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2011.09212v1
- Date: Wed, 18 Nov 2020 11:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:53:15.807649
- Title: On the use of Self-supervised Pre-trained Acoustic and Linguistic
Features for Continuous Speech Emotion Recognition
- Title(参考訳): 自己教師型事前学習音声・言語特徴を用いた連続音声感情認識
- Authors: Manon Macary, Marie Tahon, Yannick Est\`eve, Anthony Rousseau
- Abstract要約: 音声から連続的な感情認識を行うために,wav2vec と camemBERT を自己教師付き学習モデルとして用いた。
著者らにとって,本論文は,wav2vecとBERTライクな事前学習特徴の併用が連続SERタスクに非常に関係していることを示す最初の研究である。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training for feature extraction is an increasingly studied approach to
get better continuous representations of audio and text content. In the present
work, we use wav2vec and camemBERT as self-supervised learned models to
represent our data in order to perform continuous emotion recognition from
speech (SER) on AlloSat, a large French emotional database describing the
satisfaction dimension, and on the state of the art corpus SEWA focusing on
valence, arousal and liking dimensions. To the authors' knowledge, this paper
presents the first study showing that the joint use of wav2vec and BERT-like
pre-trained features is very relevant to deal with continuous SER task, usually
characterized by a small amount of labeled training data. Evaluated by the
well-known concordance correlation coefficient (CCC), our experiments show that
we can reach a CCC value of 0.825 instead of 0.592 when using MFCC in
conjunction with word2vec word embedding on the AlloSat dataset.
- Abstract(参考訳): 特徴抽出のための事前学習は、音声およびテキストコンテンツのより良い連続表現を得るための、ますます研究されているアプローチである。
本研究は,自己教師型学習モデルとしてwav2vec と camemBERT を用いて,アロサットの音声(SER)から連続的な感情認識を行う。
著者らにとって,本論文は,Wav2vecとBERTライクな事前学習特徴の併用が連続SERタスクに非常に関係していることを示す最初の研究であり,通常は少量のラベル付きトレーニングデータによって特徴づけられる。
concordance correlation coefficient(ccc)によって評価された実験では、alloatデータセットにword2vecワード埋め込みと組み合わせてmfccを使用する場合、0.592ではなく0.825のccc値に達することが示されている。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Self-Relation Attention and Temporal Awareness for Emotion Recognition
via Vocal Burst [4.6193503399184275]
The ACII Affective Vocal Bursts (A-VB) 2022 Workshop & Competitionにおいて、高次元感情タスク(A-VB High)に対する感情認識パイプラインを報告した。
実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均相関係数(CCC)を達成する。
論文 参考訳(メタデータ) (2022-09-15T22:06:42Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。