論文の概要: Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout
- arxiv url: http://arxiv.org/abs/2409.07078v1
- Date: Wed, 11 Sep 2024 08:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:26:28.936275
- Title: Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout
- Title(参考訳): 視覚言語プロンプトとモーダリティ・ドロップアウトを用いたマルチモーダル感情認識
- Authors: Anbin QI, Zhongliang Liu, Xinyong Zhou, Jinba Xiao, Fengrun Zhang, Qi Gan, Ming Tao, Gaozheng Zhang, Lu Zhang,
- Abstract要約: ここでは,CLIPに基づいたモデルであるEmoVCLIPを紹介する。
我々は、堅牢な情報融合のためにモダリティ・ドロップアウトを採用する。
最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
- 参考スコア(独自算出の注目度): 5.721743498917423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solution for the Second Multimodal Emotion Recognition Challenge Track 1(MER2024-SEMI). To enhance the accuracy and generalization performance of emotion recognition, we propose several methods for Multimodal Emotion Recognition. Firstly, we introduce EmoVCLIP, a model fine-tuned based on CLIP using vision-language prompt learning, designed for video-based emotion recognition tasks. By leveraging prompt learning on CLIP, EmoVCLIP improves the performance of pre-trained CLIP on emotional videos. Additionally, to address the issue of modality dependence in multimodal fusion, we employ modality dropout for robust information fusion. Furthermore, to aid Baichuan in better extracting emotional information, we suggest using GPT-4 as the prompt for Baichuan. Lastly, we utilize a self-training strategy to leverage unlabeled videos. In this process, we use unlabeled videos with high-confidence pseudo-labels generated by our model and incorporate them into the training set. Experimental results demonstrate that our model ranks 1st in the MER2024-SEMI track, achieving an accuracy of 90.15% on the test set.
- Abstract(参考訳): 本稿では,第2回マルチモーダル感情認識チャレンジトラック1(MER2024-SEMI)について述べる。
感情認識の精度と一般化性能を向上させるために,マルチモーダル感情認識のためのいくつかの手法を提案する。
まず、映像ベースの感情認識タスク用に設計された視覚言語プロンプト学習を用いて、CLIPに基づいて微調整されたモデルであるEmoVCLIPを紹介する。
CLIPの迅速な学習を活用することで、情緒的ビデオにおける事前学習されたCLIPのパフォーマンスが向上する。
さらに,マルチモーダル核融合におけるモダリティ依存性の問題に対処するため,ロバスト情報融合にモダリティ・ドロップアウトを用いる。
さらに, バイチュアンが感情情報をよりよく抽出するのを助けるために, GPT-4をバイチュアンのプロンプトとして用いることを提案する。
最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
このプロセスでは,モデルが生成した高信頼度擬似ラベル付きラベル付きラベル付きビデオを使用し,それらをトレーニングセットに組み込む。
実験の結果,MER2024-SEMIトラックで1位となり,90.15%の精度が得られた。
関連論文リスト
- Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition [12.808666808009926]
MSP-Podcast Speech Emotion Recognition (SER) Challengeの2024版を提出する。
この課題は、カテゴリー的感情認識(Categorical Emotion Recognition)と感情的属性予測(Emotional Attribute Prediction)の2つの異なるタスクに分けられる。
我々のアプローチでは、個別に訓練されたモデルと、SVM(Support Vector Machine)を使用してスコアレベルで融合したモデルのアンサンブルを採用しています。
この共同訓練手法は、感情状態を正確に分類するシステムの能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-07-08T08:52:06Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion
Recognition [62.48806555665122]
EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。
慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
論文 参考訳(メタデータ) (2020-12-27T10:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。