論文の概要: Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
- arxiv url: http://arxiv.org/abs/2409.05007v1
- Date: Sun, 8 Sep 2024 07:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:40:09.926342
- Title: Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
- Title(参考訳): マルチモーダル感情分析のためのオーディオガイド融合技術
- Authors: Pujin Shi, Fei Gao,
- Abstract要約: MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
ラベル付きデータを用いてビデオとテキストの特徴抽出,特にCLIP-vit-largeとBaichuan-13Bを微調整した。
また,Audio-Guided Transformer (AGT) 融合機構を提案する。
- 参考スコア(独自算出の注目度): 2.7013910991626213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a solution for the semi-supervised learning track (MER-SEMI) in MER2024. First, in order to enhance the performance of the feature extractor on sentiment classification tasks,we fine-tuned video and text feature extractors, specifically CLIP-vit-large and Baichuan-13B, using labeled data. This approach effectively preserves the original emotional information conveyed in the videos. Second, we propose an Audio-Guided Transformer (AGT) fusion mechanism, which leverages the robustness of Hubert-large, showing superior effectiveness in fusing both inter-channel and intra-channel information. Third, To enhance the accuracy of the model, we iteratively apply self-supervised learning by using high-confidence unlabeled data as pseudo-labels. Finally, through black-box probing, we discovered an imbalanced data distribution between the training and test sets. Therefore, We adopt a prior-knowledge-based voting mechanism. The results demonstrate the effectiveness of our strategy, ultimately earning us third place in the MER-SEMI track.
- Abstract(参考訳): 本稿では,MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
まず、感情分類タスクにおける特徴抽出器の性能を高めるために、ラベル付きデータを用いてビデオとテキストの特徴抽出器、特にCLIP-vit-largeとBaichuan-13Bを微調整した。
このアプローチは、ビデオで伝えられた元の感情情報を効果的に保存する。
第2に,Hubert-largeの堅牢性を活用し,チャネル間情報とチャネル内情報の両方を融合させる上で,優れた効果を示すAudio-Guided Transformer (AGT) 融合機構を提案する。
第3に、モデルの精度を高めるために、高信頼なラベル付きデータを擬似ラベルとして利用することにより、自己教師付き学習を反復的に適用する。
最後に、ブラックボックス探索により、トレーニングセットとテストセットの間に不均衡なデータ分布が発見された。
そこで我々は,事前知識に基づく投票方式を採用した。
その結果、我々の戦略の有効性が示され、最終的にMER-SEMIトラックで3位になった。
関連論文リスト
- Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition [65.19303535139453]
我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。
MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
論文 参考訳(メタデータ) (2024-08-20T02:46:03Z) - MERGE -- A Bimodal Dataset for Static Music Emotion Recognition [0.5339846068056558]
本稿では,半自動手法を用いて作成した3つの新しい音声・歌詞・バイモーダル音楽感情認識研究データセットであるMERGEを提案する。
得られた結果は、提案したデータセットの生存可能性を確認し、ディープニューラルネットワークを用いたバイモーダル分類において、79.21%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-07-08T16:01:04Z) - The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文 参考訳(メタデータ) (2024-07-01T12:52:05Z) - Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies [0.8704964543257245]
本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略について検討する。
LLM アノテーションと LLM アノテーションを混合したデータを用いて BERT を訓練し,従来の手法に対する LLM アノテーションの有効性を分析した。
以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-14T16:10:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Optimizing Speech Emotion Recognition using Manta-Ray Based Feature
Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。
また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文 参考訳(メタデータ) (2020-09-18T16:09:34Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。