論文の概要: Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples
- arxiv url: http://arxiv.org/abs/2409.04447v1
- Date: Fri, 23 Aug 2024 11:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:31:27.790238
- Title: Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples
- Title(参考訳): 限定ラベル付きサンプルを用いたマルチモーダル感情認識のためのコントラスト学習と自己学習の活用
- Authors: Qi Fan, Yutong Li, Yi Xin, Xinyu Cheng, Guanglai Gao, Miao Ma,
- Abstract要約: MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
- 参考スコア(独自算出の注目度): 18.29910296652917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multimodal Emotion Recognition challenge MER2024 focuses on recognizing emotions using audio, language, and visual signals. In this paper, we present our submission solutions for the Semi-Supervised Learning Sub-Challenge (MER2024-SEMI), which tackles the issue of limited annotated data in emotion recognition. Firstly, to address the class imbalance, we adopt an oversampling strategy. Secondly, we propose a modality representation combinatorial contrastive learning (MR-CCL) framework on the trimodal input data to establish robust initial models. Thirdly, we explore a self-training approach to expand the training set. Finally, we enhance prediction robustness through a multi-classifier weighted soft voting strategy. Our proposed method is validated to be effective on the MER2024-SEMI Challenge, achieving a weighted average F-score of 88.25% and ranking 6th on the leaderboard. Our project is available at https://github.com/WooyoohL/MER2024-SEMI.
- Abstract(参考訳): マルチモーダル感情認識の課題であるMER2024は、音声、言語、視覚信号を用いた感情の認識に焦点を当てている。
本稿では,感情認識における限定的な注釈付きデータの問題に対処するセミ・スーパーバイズド・ラーニング・サブチャレンジ(MER2024-SEMI)について提案する。
まず、クラス不均衡に対処するために、オーバーサンプリング戦略を採用します。
次に, 3モーダル入力データを用いたMR-CCL(Modality representation combinatorial contrastive learning)フレームワークを提案する。
第3に、トレーニングセットを拡張するための自己学習アプローチについて検討する。
最後に,重み付きソフト投票戦略により,予測ロバスト性を向上する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
私たちのプロジェクトはhttps://github.com/WooyoohL/MER2024-SEMIで公開されています。
関連論文リスト
- Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout [5.721743498917423]
ここでは,CLIPに基づいたモデルであるEmoVCLIPを紹介する。
我々は、堅牢な情報融合のためにモダリティ・ドロップアウトを採用する。
最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
論文 参考訳(メタデータ) (2024-09-11T08:06:47Z) - Audio-Guided Fusion Techniques for Multimodal Emotion Analysis [2.7013910991626213]
MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
ラベル付きデータを用いてビデオとテキストの特徴抽出,特にCLIP-vit-largeとBaichuan-13Bを微調整した。
また,Audio-Guided Transformer (AGT) 融合機構を提案する。
論文 参考訳(メタデータ) (2024-09-08T07:28:27Z) - SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition [65.19303535139453]
我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。
MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
論文 参考訳(メタデータ) (2024-08-20T02:46:03Z) - MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition [102.76954967225231]
我々は、この分野の発展を促進するために、MERシリーズのコンペティションを組織する。
昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つの興味深いトピックに焦点を当てました。
今年は、データセットのサイズの拡大に加えて、オープン語彙の感情認識に関する新たなトラックを導入しました。
論文 参考訳(メタデータ) (2024-04-26T02:05:20Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。