論文の概要: A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product
- arxiv url: http://arxiv.org/abs/2403.08511v2
- Date: Fri, 19 Apr 2024 06:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 19:18:17.001135
- Title: A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product
- Title(参考訳): 変圧器とテンソル製品に基づく学生感情認識のためのマルチモーダルフュージョンネットワーク
- Authors: Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma,
- Abstract要約: 本稿ではトランスフォーマーアーキテクチャとテンソル製品融合戦略に基づく新しいマルチモーダルモデルを提案する。
BERTのテキストベクトルとViTのイメージベクトルを組み合わせて、生徒の心理的条件を93.65%の精度で分類する。
- 参考スコア(独自算出の注目度): 4.528221075598755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new multi-modal model based on the Transformer architecture and tensor product fusion strategy, combining BERT's text vectors and ViT's image vectors to classify students' psychological conditions, with an accuracy of 93.65%. The purpose of the study is to accurately analyze the mental health status of students from various data sources. This paper discusses modal fusion methods, including early, late and intermediate fusion, to overcome the challenges of integrating multi-modal information. Ablation studies compare the performance of different models and fusion techniques, showing that the proposed model outperforms existing methods such as CLIP and ViLBERT in terms of accuracy and inference speed. Conclusions indicate that while this model has significant advantages in emotion recognition, its potential to incorporate other data modalities provides areas for future research.
- Abstract(参考訳): 本稿では, BERT のテキストベクトルと ViT の画像ベクトルを組み合わせて, 生徒の心理的条件を93.65% の精度で分類し, トランスフォーマーアーキテクチャとテンソル製品融合戦略に基づく新しいマルチモーダルモデルを提案する。
本研究の目的は,様々なデータソースから学生のメンタルヘルス状態を正確に分析することである。
本稿では,マルチモーダル情報の統合という課題を克服するために,早期,後期,中期の融合を含むモーダル融合法について論じる。
アブレーション研究では、異なるモデルと融合技術の性能を比較し、提案モデルが精度と推論速度においてCLIPやViLBERTといった既存の手法より優れていることを示す。
結論は、このモデルが感情認識において大きな優位性を持っている一方で、他のデータモダリティを組み込む可能性によって、将来の研究の領域が提供されることを示している。
関連論文リスト
- Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Coupled generator decomposition for fusion of electro- and magnetoencephalography data [1.7102695043811291]
データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。
本稿では、テキスト結合型ジェネレータ分解の概念を導入し、データ融合のためのスパース主成分分析をいかに一般化するかを示す。
論文 参考訳(メタデータ) (2024-03-02T12:09:16Z) - HEALNet -- Hybrid Multi-Modal Fusion for Heterogeneous Biomedical Data [12.109041184519281]
本稿では, フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つの癌コホートにおける全スライド画像と多モードデータの多モード生存解析を行った。
HEALNetは最先端のパフォーマンスを実現し、ユニモーダルベースラインと最近のマルチモーダルベースラインの両方を大幅に改善した。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。