論文の概要: SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2408.10500v2
- Date: Wed, 21 Aug 2024 18:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:32:33.524808
- Title: SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition
- Title(参考訳): MER2024におけるSZTU-CMU:マルチモーダル感情認識のためのconv-Attentionによる感情ララマの改善
- Authors: Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann,
- Abstract要約: 我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。
MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
- 参考スコア(独自算出の注目度): 65.19303535139453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our winning approach for the MER-NOISE and MER-OV tracks of the MER2024 Challenge on multimodal emotion recognition. Our system leverages the advanced emotional understanding capabilities of Emotion-LLaMA to generate high-quality annotations for unlabeled samples, addressing the challenge of limited labeled data. To enhance multimodal fusion while mitigating modality-specific noise, we introduce Conv-Attention, a lightweight and efficient hybrid framework. Extensive experimentation vali-dates the effectiveness of our approach. In the MER-NOISE track, our system achieves a state-of-the-art weighted average F-score of 85.30%, surpassing the second and third-place teams by 1.47% and 1.65%, respectively. For the MER-OV track, our utilization of Emotion-LLaMA for open-vocabulary annotation yields an 8.52% improvement in average accuracy and recall compared to GPT-4V, securing the highest score among all participating large multimodal models. The code and model for Emotion-LLaMA are available at https://github.com/ZebangCheng/Emotion-LLaMA.
- Abstract(参考訳): 本稿では,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチについて述べる。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成し、限定ラベル付きデータの課題に対処する。
モーダリティ固有の雑音を緩和しながらマルチモーダル融合を強化するために,軽量で効率的なハイブリッドフレームワークであるConv-Attentionを導入する。
大規模な実験は我々のアプローチの有効性を判断する。
MER-NOISEトラックでは,2位と3位にそれぞれ1.47%,1.65%を上回り,最先端の重み付き平均Fスコア85.30%を達成した。
MER-OVトラックでは,オープンボキャブラリアノテーションに対する感情-LLaMAの利用により,GPT-4Vと比較して平均精度とリコールが8.52%向上し,参加する大規模マルチモーダルモデルの中で最も高いスコアが確保された。
Emotion-LLaMAのコードとモデルはhttps://github.com/ZebangCheng/Emotion-LLaMAで公開されている。
関連論文リスト
- Audio-Guided Fusion Techniques for Multimodal Emotion Analysis [2.7013910991626213]
MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
ラベル付きデータを用いてビデオとテキストの特徴抽出,特にCLIP-vit-largeとBaichuan-13Bを微調整した。
また,Audio-Guided Transformer (AGT) 融合機構を提案する。
論文 参考訳(メタデータ) (2024-09-08T07:28:27Z) - Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition [102.76954967225231]
我々は、この分野の発展を促進するために、MERシリーズのコンペティションを組織する。
昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つの興味深いトピックに焦点を当てました。
今年は、データセットのサイズの拡大に加えて、オープン語彙の感情認識に関する新たなトラックを導入しました。
論文 参考訳(メタデータ) (2024-04-26T02:05:20Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For
Multimodal Emotion Recognition [24.115771176570824]
我々は,事前学習したモデルを上流ネットワークとして,wav2vec 2.0を音声モダリティ,BERTをテキストモダリティとして使用することを提案する。
マルチモーダル核融合の困難さに対して,K層型マルチヘッドアテンション機構を下流核融合モジュールとして用いる。
IEMOCAPデータセット上で、78.42%の重み付き精度(WA)と79.71%の非重み付き精度(UA)により、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-02-27T10:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。