論文の概要: Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition
- arxiv url: http://arxiv.org/abs/2303.17611v1
- Date: Wed, 29 Mar 2023 19:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:34:52.768617
- Title: Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition
- Title(参考訳): ウェアラブル感情認識のためのトランスフォーマーに基づく自己教師型マルチモーダル表現学習
- Authors: Yujin Wu, Mohamed Daoudi, Ali Amad
- Abstract要約: ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
- 参考スコア(独自算出の注目度): 2.4364387374267427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, wearable emotion recognition based on peripheral physiological
signals has drawn massive attention due to its less invasive nature and its
applicability in real-life scenarios. However, how to effectively fuse
multimodal data remains a challenging problem. Moreover, traditional
fully-supervised based approaches suffer from overfitting given limited labeled
data. To address the above issues, we propose a novel self-supervised learning
(SSL) framework for wearable emotion recognition, where efficient multimodal
fusion is realized with temporal convolution-based modality-specific encoders
and a transformer-based shared encoder, capturing both intra-modal and
inter-modal correlations. Extensive unlabeled data is automatically assigned
labels by five signal transforms, and the proposed SSL model is pre-trained
with signal transformation recognition as a pretext task, allowing the
extraction of generalized multimodal representations for emotion-related
downstream tasks. For evaluation, the proposed SSL model was first pre-trained
on a large-scale self-collected physiological dataset and the resulting encoder
was subsequently frozen or fine-tuned on three public supervised emotion
recognition datasets. Ultimately, our SSL-based method achieved
state-of-the-art results in various emotion classification tasks. Meanwhile,
the proposed model proved to be more accurate and robust compared to
fully-supervised methods on low data regimes.
- Abstract(参考訳): 近年,周囲の生理的信号に基づくウェアラブル感情認識が注目されている。
しかし,マルチモーダルデータを効果的に融合する方法は依然として課題である。
さらに、従来の完全教師付きアプローチは、制限されたラベル付きデータに過度に適合する。
以上の課題に対処するために,時間的畳み込みに基づくモーダル比エンコーダとトランスフォーマーに基づく共有エンコーダを用いて,効率的なマルチモーダル融合を実現する,ウェアラブル感情認識のための新たな自己教師付き学習(SSL)フレームワークを提案する。
5つの信号変換によってラベルが自動的に割り当てられ、提案するsslモデルはプリテキストタスクとして信号変換認識で事前学習され、感情に関連した下流タスクのための一般化されたマルチモーダル表現を抽出することができる。
評価のために、提案するsslモデルは、まず、大規模な自己収集型生理学的データセットで事前学習され、その結果得られたエンコーダは、3つの教師付き感情認識データセット上で凍結または微調整された。
最終的に、SSLベースの手法は、様々な感情分類タスクにおいて最先端の結果を得た。
一方,提案手法は,低データ環境における完全教師あり手法に比べて正確かつ堅牢であることが判明した。
関連論文リスト
- Adversarial Masking Contrastive Learning for vein recognition [10.886119051977785]
ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。
静脈認識のために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークが導入されている。
近年の進歩にもかかわらず、画像サンプルの不足のため、指先の特徴抽出のための既存のソリューションはまだ最適ではない。
論文 参考訳(メタデータ) (2024-01-16T03:09:45Z) - Adaptive Distribution Masked Autoencoders for Continual Test-Time
Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Enhancing Unsupervised Anomaly Detection with Score-Guided Network [13.127091975959358]
異常検出は、医療や金融システムなど、さまざまな現実世界のアプリケーションにおいて重要な役割を担っている。
正規データと異常データの間の異常スコアの差を学習・拡大するために,スコア誘導正規化を用いた新しいスコアネットワークを提案する。
次に,スコア誘導型オートエンコーダ(SG-AE)を提案する。
論文 参考訳(メタデータ) (2021-09-10T06:14:53Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。