論文の概要: Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion
- arxiv url: http://arxiv.org/abs/2404.17858v2
- Date: Fri, 3 May 2024 02:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:08:18.843081
- Title: Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion
- Title(参考訳): 広帯域空間モデルと確率-誘導融合によるマルチモーダル感情学習の再検討
- Authors: Yuntao Shou, Tao Meng, Fuchen Zhang, Nan Yin, Keqin Li,
- Abstract要約: 我々は,長距離文脈意味情報を特徴展開段階において抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。
近年の状態空間モデル (SSM) に着想を得たBroad Mambaを提案する。
提案手法は,長距離コンテキストをモデル化する場合に,Transformerの計算限界やメモリ制限を克服できることを示す。
- 参考スコア(独自算出の注目度): 14.14051929942914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Emotion Recognition in Conversation (MERC) has received considerable attention in various fields, e.g., human-computer interaction and recommendation systems. Most existing works perform feature disentanglement and fusion to extract emotional contextual information from multi-modal features and emotion classification. After revisiting the characteristic of MERC, we argue that long-range contextual semantic information should be extracted in the feature disentanglement stage and the inter-modal semantic information consistency should be maximized in the feature fusion stage. Inspired by recent State Space Models (SSMs), Mamba can efficiently model long-distance dependencies. Therefore, in this work, we fully consider the above insights to further improve the performance of MERC. Specifically, on the one hand, in the feature disentanglement stage, we propose a Broad Mamba, which does not rely on a self-attention mechanism for sequence modeling, but uses state space models to compress emotional representation, and utilizes broad learning systems to explore the potential data distribution in broad space. Different from previous SSMs, we design a bidirectional SSM convolution to extract global context information. On the other hand, we design a multi-modal fusion strategy based on probability guidance to maximize the consistency of information between modalities. Experimental results show that the proposed method can overcome the computational and memory limitations of Transformer when modeling long-distance contexts, and has great potential to become a next-generation general architecture in MERC.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は,様々な分野,例えば人間とコンピュータのインタラクションやレコメンデーションシステムにおいて注目されている。
既存の作品の多くは、マルチモーダル特徴と感情分類から感情的文脈情報を抽出するために、特徴のゆがみと融合を行う。
我々は,MERCの特徴を再考した後,特徴展開段階において長距離文脈意味情報を抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。
最近のステートスペースモデル(SSM)にインスパイアされたMambaは、長距離依存関係を効率的にモデル化することができる。
そこで本研究では,MERCの性能向上を図るため,上記の知見を十分に検討する。
具体的には、機能障害の段階では、シーケンスモデリングの自己認識機構に依存しないブロードマンバを提案するが、状態空間モデルを用いて感情表現を圧縮し、広義の学習システムを用いて、広義の空間における潜在的なデータ分布を探索する。
従来のSSMとは違って,グローバルコンテキスト情報を抽出する双方向SSM畳み込みを設計する。
一方,モーダル間の情報の一貫性を最大化するために,確率誘導に基づくマルチモーダル融合戦略を設計する。
実験結果から,提案手法は長距離コンテキストをモデル化する際のTransformerの計算およびメモリ制限を克服し,MERCの次世代汎用アーキテクチャとなる大きな可能性を示唆している。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking [8.696516368633143]
本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。
特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。
本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
論文 参考訳(メタデータ) (2024-11-23T05:31:58Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction [8.452410804749512]
生存予測のための多層多モード相互作用(SurvMamba)を用いた状態空間モデルを提案する。
SurvMamba は階層的相互作用 Mamba (HIM) モジュールで実装されている。
インターフェクション・フュージョン・マンバ (IFM) モジュールは、モーダル間インタラクティブ・フュージョンのカスケードに使われ、生存予測のためのより包括的な特徴をもたらす。
論文 参考訳(メタデータ) (2024-04-11T15:58:12Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。