論文の概要: Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For
Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2302.13661v1
- Date: Mon, 27 Feb 2023 10:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:55:41.093020
- Title: Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For
Multimodal Emotion Recognition
- Title(参考訳): Wav2vec 2.0とBERTのマルチモーダル融合における補助的タスクを用いたマルチモーダル感情認識
- Authors: Dekai Sun, Yancheng He, Jiqing Han
- Abstract要約: 我々は,事前学習したモデルを上流ネットワークとして,wav2vec 2.0を音声モダリティ,BERTをテキストモダリティとして使用することを提案する。
マルチモーダル核融合の困難さに対して,K層型マルチヘッドアテンション機構を下流核融合モジュールとして用いる。
IEMOCAPデータセット上で、78.42%の重み付き精度(WA)と79.71%の非重み付き精度(UA)により、パフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 24.115771176570824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of data and the difficulty of multimodal fusion have always been
challenges for multimodal emotion recognition (MER). In this paper, we propose
to use pretrained models as upstream network, wav2vec 2.0 for audio modality
and BERT for text modality, and finetune them in downstream task of MER to cope
with the lack of data. For the difficulty of multimodal fusion, we use a
K-layer multi-head attention mechanism as a downstream fusion module. Starting
from the MER task itself, we design two auxiliary tasks to alleviate the
insufficient fusion between modalities and guide the network to capture and
align emotion-related features. Compared to the previous state-of-the-art
models, we achieve a better performance by 78.42% Weighted Accuracy (WA) and
79.71% Unweighted Accuracy (UA) on the IEMOCAP dataset.
- Abstract(参考訳): データの欠如とマルチモーダル融合の難しさは、常にマルチモーダル感情認識(mer)の課題となっている。
本稿では,音声モダリティのためのwav2vec 2.0とテキストモダリティのためのbertを上流ネットワークとして使用し,データ不足に対処するためにmerの下流タスクでそれらを微調整することを提案する。
マルチモーダル融合の難しさのために,k層マルチヘッドアテンション機構を下流融合モジュールとして用いる。
MERタスク自体から、モダリティ間の融合が不十分なことを緩和し、ネットワークを誘導し、感情に関連した特徴を捕捉・調整する2つの補助タスクを設計する。
従来の最先端モデルと比較すると、IEMOCAPデータセット上で78.42%の重み付き精度(WA)と79.71%の非重み付き精度(UA)によりパフォーマンスが向上する。
関連論文リスト
- GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion
Recognition [15.133202035812017]
本稿では,wav2vec 2.0やBERTといった最先端の事前学習モデルを利用したトランスファー学習を提案する。
また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。
論文 参考訳(メタデータ) (2022-07-11T08:20:53Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。