Fugu-MT 論文翻訳(概要): MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

論文の概要: MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

arxiv url: http://arxiv.org/abs/2404.18327v2
Date: Thu, 16 May 2024 13:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 18:25:33.517166
Title: MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition
Title（参考訳）: MultiMAE-DER:動的感情認識のためのマルチモーダルマスク付きオートエンコーダ
Authors: Peihao Xiang, Chaohao Lin, Kaida Wu, Ou Bai,
Abstract要約: 本稿では,動的感情認識のための動的感情認識のためのデータ処理手法であるMulti Masked Autoencoder for Dynamic Emotion (MAE-DER)を提案する。プリトレーニングされたマスク付きオートエンコーダを利用することで、MultiMAE-DERは単純で簡単な微調整によって実現される。
参考スコア（独自算出の注目度）: 0.19285000127136376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a novel approach to processing multimodal data for dynamic emotion recognition, named as the Multimodal Masked Autoencoder for Dynamic Emotion Recognition (MultiMAE-DER). The MultiMAE-DER leverages the closely correlated representation information within spatiotemporal sequences across visual and audio modalities. By utilizing a pre-trained masked autoencoder model, the MultiMAEDER is accomplished through simple, straightforward finetuning. The performance of the MultiMAE-DER is enhanced by optimizing six fusion strategies for multimodal input sequences. These strategies address dynamic feature correlations within cross-domain data across spatial, temporal, and spatiotemporal sequences. In comparison to state-of-the-art multimodal supervised learning models for dynamic emotion recognition, MultiMAE-DER enhances the weighted average recall (WAR) by 4.41% on the RAVDESS dataset and by 2.06% on the CREMAD. Furthermore, when compared with the state-of-the-art model of multimodal self-supervised learning, MultiMAE-DER achieves a 1.86% higher WAR on the IEMOCAP dataset.
Abstract（参考訳）: 本稿では,動的感情認識のためのマルチモーダルデータ処理手法を提案する。 MultiMAE-DERは、視覚的およびオーディオ的モダリティ間の時空間列内の密接な相関表現情報を利用する。トレーニング済みのマスク付きオートエンコーダモデルを利用することで、MultiMAEDERは単純で簡単な微調整によって実現される。マルチモーダル入力シーケンスに対する6つの融合戦略を最適化することにより、MultiMAE-DERの性能を向上させる。これらの戦略は、空間的・時間的・時空間的・時空間的な領域間データ内の動的特徴相関に対処する。動的感情認識のための最先端のマルチモーダル教師付き学習モデルと比較して、MultiMAE-DERは、RAVDESSデータセットでは4.41%、CREMADでは2.06%の重み付き平均リコール(WAR)を強化する。さらに、マルチモーダル自己教師型学習の最先端モデルと比較すると、MultiMAE-DERはIEMOCAPデータセット上で1.86%高いWARを達成する。

関連論文リスト

MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文参考訳（メタデータ） (2025-04-03T05:23:08Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文参考訳（メタデータ） (2025-01-13T07:51:43Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳（メタデータ） (2024-12-11T18:57:32Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。 Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文参考訳（メタデータ） (2024-08-08T06:16:00Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。 MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文参考訳（メタデータ） (2023-10-04T13:54:46Z)
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文参考訳（メタデータ） (2023-06-23T22:38:32Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文参考訳（メタデータ） (2022-03-31T21:35:13Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。