論文の概要: A Unified Transformer-based Network for multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2308.14160v1
- Date: Sun, 27 Aug 2023 17:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:36:45.510827
- Title: A Unified Transformer-based Network for multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための統一トランスフォーマーベースネットワーク
- Authors: Kamran Ali and Charles E. Hughes
- Abstract要約: 本稿では,心電図/信号の2次元表現と顔情報を組み合わせることで,覚醒空間内の感情を分類するトランスフォーマーに基づく手法を提案する。
我々のモデルは最先端技術に匹敵する結果をもたらす。
- 参考スコア(独自算出の注目度): 4.07926531936425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of transformer-based models has resulted in significant
advances in addressing various vision and NLP-based research challenges.
However, the progress made in transformer-based methods has not been
effectively applied to biosensing research. This paper presents a novel Unified
Biosensor-Vision Multi-modal Transformer-based (UBVMT) method to classify
emotions in an arousal-valence space by combining a 2D representation of an
ECG/PPG signal with the face information. To achieve this goal, we first
investigate and compare the unimodal emotion recognition performance of three
image-based representations of the ECG/PPG signal. We then present our UBVMT
network which is trained to perform emotion recognition by combining the 2D
image-based representation of the ECG/PPG signal and the facial expression
features. Our unified transformer model consists of homogeneous transformer
blocks that take as an input the 2D representation of the ECG/PPG signal and
the corresponding face frame for emotion representation learning with minimal
modality-specific design. Our UBVMT model is trained by reconstructing masked
patches of video frames and 2D images of ECG/PPG signals, and contrastive
modeling to align face and ECG/PPG data. Extensive experiments on the
MAHNOB-HCI and DEAP datasets show that our Unified UBVMT-based model produces
comparable results to the state-of-the-art techniques.
- Abstract(参考訳): トランスフォーマーベースのモデルの開発は、様々なビジョンやNLPベースの研究課題に対処する上で大きな進歩をもたらした。
しかし, 変圧器を用いた手法の進歩は, バイオセンシング研究にはあまり適用されていない。
本稿では、心電図/PPG信号の2次元表現と顔情報を組み合わせることで、覚醒値空間における感情を分類するUnified Biosensor-Vision Multi-modal Transformer-based (UBVMT)法を提案する。
この目的を達成するために、まず、ECG/PPG信号の3つの画像ベース表現の単調感情認識性能を調査、比較する。
次に,ecg/ppg信号の2次元画像ベース表現と表情特徴を組み合わせることで感情認識を行うように訓練したubvmtネットワークを提案する。
我々の統合トランスモデルは、ECG/PPG信号の2次元表現を入力として取る均一なトランスフォーマーブロックと、最小限のモダリティ特異的設計による感情表現学習のための対応する顔フレームから構成される。
UBVMTモデルは、映像フレームのマスクパッチとECG/PPG信号の2次元画像の再構成と、顔とECG/PPGデータの整列のための対照的なモデリングによって訓練される。
MAHNOB-HCIとDEAPデータセットの大規模な実験により、我々のUnified UBVMTベースのモデルが最先端技術に匹敵する結果をもたらすことが示された。
関連論文リスト
- Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - Spatiotemporal Pooling on Appropriate Topological Maps Represented as
Two-Dimensional Images for EEG Classification [0.0]
脳波(EEG)信号に基づく運動分類は、脳-コンピュータインターフェースの最も重要な応用の1つである。
本研究では,脳波を用いた3つの特徴を持つ新しい運動画像分類法を提案する。
PhysioNet EEG Movement Motor/Imageryデータセットを用いた実験の結果、提案手法は88.57%の最適分類精度を達成した。
論文 参考訳(メタデータ) (2024-03-07T09:35:49Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Multi-scale Transformer-based Network for Emotion Recognition from Multi
Physiological Signals [11.479653866646762]
本稿では,生理学的データから感情認識を行うためのマルチスケールトランスフォーマーを用いた効率的な手法を提案する。
我々のアプローチは、内部信号と人間の感情の関係を確立するために、データのスケーリングと組み合わせたマルチモーダル手法を適用することである。
EPiCコンペティションのCASEデータセットでは,RMSEスコアが1.45。
論文 参考訳(メタデータ) (2023-05-01T11:10:48Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - View-Disentangled Transformer for Brain Lesion Detection [50.4918615815066]
より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディペンタングル変換器を提案する。
まず, 3次元脳スキャンにおいて, 異なる位置の長距離相関を求める。
第二に、トランスフォーマーはスライス機能のスタックを複数の2Dビューとしてモデル化し、これらの機能をビュー・バイ・ビューとして拡張する。
第三に、提案したトランスモジュールをトランスのバックボーンに展開し、脳病変を取り巻く2D領域を効果的に検出する。
論文 参考訳(メタデータ) (2022-09-20T11:58:23Z) - Transformer-Based Self-Supervised Learning for Emotion Recognition [0.0]
心電図(ECG)を感情認識に利用するトランスフォーマーモデルを提案する。
感情ラベル付きデータセットの比較的小さなサイズを克服するために,自己教師型学習を採用する。
AMIGOSの心電図信号を用いた感情認識の最先端性能を示す。
論文 参考訳(メタデータ) (2022-04-08T07:14:55Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - A Transformer Architecture for Stress Detection from ECG [7.559720049837459]
本稿では、畳み込み層に基づくディープニューラルネットワークと、ECG信号を用いたストレス検出のためのトランスフォーマー機構を提案する。
実験の結果,提案手法は心電図に基づくストレス検出のための最先端モデルに匹敵する,あるいは優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-22T14:34:44Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。