論文の概要: Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition
- arxiv url: http://arxiv.org/abs/2303.17611v1
- Date: Wed, 29 Mar 2023 19:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:34:52.768617
- Title: Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition
- Title(参考訳): ウェアラブル感情認識のためのトランスフォーマーに基づく自己教師型マルチモーダル表現学習
- Authors: Yujin Wu, Mohamed Daoudi, Ali Amad
- Abstract要約: ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
- 参考スコア(独自算出の注目度): 2.4364387374267427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, wearable emotion recognition based on peripheral physiological
signals has drawn massive attention due to its less invasive nature and its
applicability in real-life scenarios. However, how to effectively fuse
multimodal data remains a challenging problem. Moreover, traditional
fully-supervised based approaches suffer from overfitting given limited labeled
data. To address the above issues, we propose a novel self-supervised learning
(SSL) framework for wearable emotion recognition, where efficient multimodal
fusion is realized with temporal convolution-based modality-specific encoders
and a transformer-based shared encoder, capturing both intra-modal and
inter-modal correlations. Extensive unlabeled data is automatically assigned
labels by five signal transforms, and the proposed SSL model is pre-trained
with signal transformation recognition as a pretext task, allowing the
extraction of generalized multimodal representations for emotion-related
downstream tasks. For evaluation, the proposed SSL model was first pre-trained
on a large-scale self-collected physiological dataset and the resulting encoder
was subsequently frozen or fine-tuned on three public supervised emotion
recognition datasets. Ultimately, our SSL-based method achieved
state-of-the-art results in various emotion classification tasks. Meanwhile,
the proposed model proved to be more accurate and robust compared to
fully-supervised methods on low data regimes.
- Abstract(参考訳): 近年,周囲の生理的信号に基づくウェアラブル感情認識が注目されている。
しかし,マルチモーダルデータを効果的に融合する方法は依然として課題である。
さらに、従来の完全教師付きアプローチは、制限されたラベル付きデータに過度に適合する。
以上の課題に対処するために,時間的畳み込みに基づくモーダル比エンコーダとトランスフォーマーに基づく共有エンコーダを用いて,効率的なマルチモーダル融合を実現する,ウェアラブル感情認識のための新たな自己教師付き学習(SSL)フレームワークを提案する。
5つの信号変換によってラベルが自動的に割り当てられ、提案するsslモデルはプリテキストタスクとして信号変換認識で事前学習され、感情に関連した下流タスクのための一般化されたマルチモーダル表現を抽出することができる。
評価のために、提案するsslモデルは、まず、大規模な自己収集型生理学的データセットで事前学習され、その結果得られたエンコーダは、3つの教師付き感情認識データセット上で凍結または微調整された。
最終的に、SSLベースの手法は、様々な感情分類タスクにおいて最先端の結果を得た。
一方,提案手法は,低データ環境における完全教師あり手法に比べて正確かつ堅牢であることが判明した。
関連論文リスト
- MAPL: Memory Augmentation and Pseudo-Labeling for Semi-Supervised Anomaly Detection [0.0]
メモリ拡張(Memory Augmentation)と擬似ラベル(Pseudo-Labeling, MAPL)と呼ばれる, 産業環境における表面欠陥検出のための新しいメソドロジーを導入する。
この手法は、まず異常シミュレーション戦略を導入し、希少または未知の異常型を認識するモデルの能力を著しく改善する。
入力データから直接異常領域を識別するために、MAPLによってエンドツーエンドの学習フレームワークが使用される。
論文 参考訳(メタデータ) (2024-05-10T02:26:35Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Enhancing Unsupervised Anomaly Detection with Score-Guided Network [13.127091975959358]
異常検出は、医療や金融システムなど、さまざまな現実世界のアプリケーションにおいて重要な役割を担っている。
正規データと異常データの間の異常スコアの差を学習・拡大するために,スコア誘導正規化を用いた新しいスコアネットワークを提案する。
次に,スコア誘導型オートエンコーダ(SG-AE)を提案する。
論文 参考訳(メタデータ) (2021-09-10T06:14:53Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。