論文の概要: Hierarchical Adaptive Expert for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2503.22715v1
- Date: Tue, 25 Mar 2025 09:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:13.054445
- Title: Hierarchical Adaptive Expert for Multimodal Sentiment Analysis
- Title(参考訳): 階層型適応エキスパートによるマルチモーダル感性分析
- Authors: Jiahao Qin, Feng Liu, Lu Zong,
- Abstract要約: マルチモーダル感情分析は、多様なコミュニケーションチャネルにおける人間の感情を理解する重要なツールとして登場した。
本稿では,進化的最適化,クロスモーダルな知識伝達,マルチタスク学習を組み合わせた新しいフレームワークHAEMSAを提案する。
大規模な実験では、複数のベンチマークデータセットにまたがるHAEMSAの優れたパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 5.755715236558973
- License:
- Abstract: Multimodal sentiment analysis has emerged as a critical tool for understanding human emotions across diverse communication channels. While existing methods have made significant strides, they often struggle to effectively differentiate and integrate modality-shared and modality-specific information, limiting the performance of multimodal learning. To address this challenge, we propose the Hierarchical Adaptive Expert for Multimodal Sentiment Analysis (HAEMSA), a novel framework that synergistically combines evolutionary optimization, cross-modal knowledge transfer, and multi-task learning. HAEMSA employs a hierarchical structure of adaptive experts to capture both global and local modality representations, enabling more nuanced sentiment analysis. Our approach leverages evolutionary algorithms to dynamically optimize network architectures and modality combinations, adapting to both partial and full modality scenarios. Extensive experiments demonstrate HAEMSA's superior performance across multiple benchmark datasets. On CMU-MOSEI, HAEMSA achieves a 2.6% increase in 7-class accuracy and a 0.059 decrease in MAE compared to the previous best method. For CMU-MOSI, we observe a 6.3% improvement in 7-class accuracy and a 0.058 reduction in MAE. On IEMOCAP, HAEMSA outperforms the state-of-the-art by 2.84% in weighted-F1 score for emotion recognition. These results underscore HAEMSA's effectiveness in capturing complex multimodal interactions and generalizing across different emotional contexts.
- Abstract(参考訳): マルチモーダル感情分析は、多様なコミュニケーションチャネルにおける人間の感情を理解する重要なツールとして登場した。
既存の手法は大きな進歩を遂げてきたが、モダリティ共有とモダリティ固有の情報を効果的に区別し統合することに苦慮し、マルチモーダル学習の性能を制限している。
この課題に対処するために、進化的最適化、クロスモーダルな知識伝達、マルチタスク学習を相乗的に組み合わせた新しいフレームワークである階層型マルチモーダル感性分析(HAEMSA)を提案する。
HAEMSAは、グローバルなモダリティ表現とローカルなモダリティ表現の両方を捉えるために、適応専門家の階層構造を採用している。
我々のアプローチは進化的アルゴリズムを利用してネットワークアーキテクチャとモダリティの組み合わせを動的に最適化し、部分的および完全なモダリティシナリオに適応する。
大規模な実験では、複数のベンチマークデータセットにまたがるHAEMSAの優れたパフォーマンスが示されている。
CMU-MOSEIでは、HAEMSAは7クラスの精度が2.6%、MAEが0.059減少する。
CMU-MOSIでは7クラスの精度が6.3%向上し,MAEは0.058低下した。
IEMOCAPでは、HAEMSAは感情認識のための重み付きF1スコアを2.84%上回っている。
これらの結果は、HAEMSAが複雑なマルチモーダル相互作用を捉え、異なる感情的文脈で一般化する効果を裏付けるものである。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FAF: A novel multimodal emotion recognition approach integrating face,
body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文 参考訳(メタデータ) (2022-11-20T14:43:36Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z) - Gated Mechanism for Attention Based Multimodal Sentiment Analysis [7.07652817535224]
マルチモーダル感情分析は、ソーシャルメディア投稿、カスタマーサービスコール、ビデオブログとの関係から、最近人気が高まっている。
本稿では, マルチモーダルな感情分析の3つの側面, 1. クロスモーダルな相互作用学習, すなわち, 複数のモーダルが感情にどの程度寄与するかを考察する。
CMUマルチモーダル・オピニオン・インテンシティ(CMU-MOSI)とCMUマルチモーダル・オピニオン・インテンシティ(CMU-MOSEI)コーパス(CMU-MOSEI)の2つのベンチマーク・データセットで実験を行った。
論文 参考訳(メタデータ) (2020-02-21T06:58:03Z) - Deep Multi-task Multi-label CNN for Effective Facial Attribute
Classification [53.58763562421771]
DMM-CNN(ディープ・マルチタスク・マルチラベル・CNN)による効果的な顔属性分類(FAC)を提案する。
具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。
2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。
論文 参考訳(メタデータ) (2020-02-10T12:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。