論文の概要: Emotion Recognition Using Transformers with Masked Learning
- arxiv url: http://arxiv.org/abs/2403.13731v2
- Date: Sat, 23 Mar 2024 06:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 10:51:37.510723
- Title: Emotion Recognition Using Transformers with Masked Learning
- Title(参考訳): マスケッド学習を用いたトランスフォーマを用いた感情認識
- Authors: Seongjae Min, Junseok Yang, Sangjun Lim, Junyong Lee, Sangwon Lee, Sejoon Lim,
- Abstract要約: 本研究では、視覚変換器(ViT)と変換器(Transformer)のモデルを用いて、Valence-Arousal(VA)の推定に焦点をあてる。
このアプローチは、従来の畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ベースのメソッドを超越し、新しいTransformerベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.650385662008779
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, deep learning has achieved innovative advancements in various fields, including the analysis of human emotions and behaviors. Initiatives such as the Affective Behavior Analysis in-the-wild (ABAW) competition have been particularly instrumental in driving research in this area by providing diverse and challenging datasets that enable precise evaluation of complex emotional states. This study leverages the Vision Transformer (ViT) and Transformer models to focus on the estimation of Valence-Arousal (VA), which signifies the positivity and intensity of emotions, recognition of various facial expressions, and detection of Action Units (AU) representing fundamental muscle movements. This approach transcends traditional Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) based methods, proposing a new Transformer-based framework that maximizes the understanding of temporal and spatial features. The core contributions of this research include the introduction of a learning technique through random frame masking and the application of Focal loss adapted for imbalanced data, enhancing the accuracy and applicability of emotion and behavior analysis in real-world settings. This approach is expected to contribute to the advancement of emotional computing and deep learning methodologies.
- Abstract(参考訳): 近年、深層学習は、人間の感情や行動の分析など、様々な分野で革新的な進歩を遂げている。
ABAW(Affective Behavior Analysis in-the-Wild)コンペティションのようなイニシアチブは、複雑な感情状態の正確な評価を可能にする多様で挑戦的なデータセットを提供することによって、この分野の研究を促進する上で特に役立っている。
本研究では、視覚変換器(ViT)とトランスフォーマー(Transformer)モデルを用いて、感情の肯定性と強さ、様々な表情の認識、基本的な筋運動を表すアクションユニット(AU)の検出に焦点をあてる。
このアプローチは従来の畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ベースの手法を超越し、時間的および空間的特徴の理解を最大化する新しいTransformerベースのフレームワークを提案する。
本研究のコアコントリビューションは,ランダムフレームマスキングによる学習手法の導入と,不均衡なデータに適応した焦点損失の適用,実世界の環境における感情と行動分析の正確性と適用性の向上である。
このアプローチは、感情コンピューティングとディープラーニング方法論の進歩に寄与することが期待されている。
関連論文リスト
- Emotion Detection through Body Gesture and Face [0.0]
このプロジェクトは、非顔の手がかり、特に手、身体のジェスチャー、ジェスチャーに焦点を当てることによる感情認識の課題に対処する。
従来の感情認識システムは、主に表情分析に依存しており、ボディランゲージを通して伝達される豊かな感情情報を無視することが多い。
このプロジェクトの目的は、マシンが人間の感情をより包括的でニュアンスな方法で解釈し、反応する能力を高めることで、感情コンピューティングの分野に貢献することにある。
論文 参考訳(メタデータ) (2024-07-13T15:15:50Z) - Multi-modal Mood Reader: Pre-trained Model Empowers Cross-Subject Emotion Recognition [23.505616142198487]
我々は、クロスオブジェクト感情認識のための訓練済みモデルに基づくMultimodal Mood Readerを開発した。
このモデルは、大規模データセットの事前学習を通じて、脳波信号の普遍的な潜在表現を学習する。
公開データセットに関する大規模な実験は、クロスオブジェクト感情認識タスクにおけるMood Readerの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T14:31:11Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - EEG-based Cognitive Load Classification using Feature Masked
Autoencoding and Emotion Transfer Learning [13.404503606887715]
脳波(EEG)を用いた認知負荷の新しい分類法を提案する。
感情関連脳波データセットの自己教師付きマスクによる自動エンコーディングを用いて、我々のモデルを事前学習する。
実験の結果,提案手法は従来の単段階完全教師付き学習よりも優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-01T02:59:19Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units
and a Unified Framework [83.21732533130846]
Aff-Wild と Aff-Wild2 の2つである。
これは、これらのデータベースで訓練された深層ニューラルネットワークの2つのクラスの設計を示す。
インパクト認識を共同で学び、効果的に一般化し、実行することができる新しいマルチタスクおよび全体主義のフレームワークが提示されます。
論文 参考訳(メタデータ) (2021-03-29T17:36:20Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。