論文の概要: A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.17799v2
- Date: Fri, 15 Nov 2024 08:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 18:55:21.760334
- Title: A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition
- Title(参考訳): 低ランクマッチング注意に基づく会話感情認識のためのクロスモーダル特徴融合法
- Authors: Yuntao Shou, Huan Liu, Xiangyong Cao, Deyu Meng, Bo Dong,
- Abstract要約: 低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。
LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。
実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
- 参考スコア(独自算出の注目度): 54.44337276044968
- License:
- Abstract: Conversational emotion recognition (CER) is an important research topic in human-computer interactions. {Although recent advancements in transformer-based cross-modal fusion methods have shown promise in CER tasks, they tend to overlook the crucial intra-modal and inter-modal emotional interaction or suffer from high computational complexity. To address this, we introduce a novel and lightweight cross-modal feature fusion method called Low-Rank Matching Attention Method (LMAM). LMAM effectively captures contextual emotional semantic information in conversations while mitigating the quadratic complexity issue caused by the self-attention mechanism. Specifically, by setting a matching weight and calculating inter-modal features attention scores row by row, LMAM requires only one-third of the parameters of self-attention methods. We also employ the low-rank decomposition method on the weights to further reduce the number of parameters in LMAM. As a result, LMAM offers a lightweight model while avoiding overfitting problems caused by a large number of parameters. Moreover, LMAM is able to fully exploit the intra-modal emotional contextual information within each modality and integrates complementary emotional semantic information across modalities by computing and fusing similarities of intra-modal and inter-modal features simultaneously. Experimental results verify the superiority of LMAM compared with other popular cross-modal fusion methods on the premise of being more lightweight. Also, LMAM can be embedded into any existing state-of-the-art CER methods in a plug-and-play manner, and can be applied to other multi-modal recognition tasks, e.g., session recommendation and humour detection, demonstrating its remarkable generalization ability.
- Abstract(参考訳): 会話感情認識(CER)は人間とコンピュータの相互作用において重要な研究課題である。
変換器を用いたクロスモーダル融合法の最近の進歩は、CERタスクにおいて有望であることを示しているが、それらは重要なモーダル内およびモーダル間感情相互作用を見落とし、高い計算複雑性に悩まされる傾向にある。
そこで本研究では,低ランクマッチング注意法 (LMAM) と呼ばれる,新しい軽量なクロスモーダル機能融合法を提案する。
LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。
具体的には、一致した重みを設定し、モーダル間特徴点を行ごとのアテンションスコアを計算することで、LMAMは自己注意法のパラメータの3分の1しか必要としない。
また,低ランク分解法を重み付けに用いて,LMAMのパラメータ数をさらに減らした。
その結果、LMAMは軽量なモデルを提供すると同時に、多数のパラメータが原因で発生する過度な問題を回避することができる。
さらに、LMAMは、モーダル内の感情的文脈情報を完全に活用し、モーダル内特徴とモーダル間特徴の類似性を同時に融合することにより、モーダル間の相補的な感情的意味情報を統合することができる。
実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
また、LMAMは既存のCERメソッドにプラグイン・アンド・プレイ方式で組み込むことができ、他のマルチモーダル認識タスク、例えばセッションレコメンデーションやユーモア検出にも適用でき、その顕著な一般化能力を示すことができる。
関連論文リスト
- Completed Feature Disentanglement Learning for Multimodal MRIs Analysis [36.32164729310868]
特徴不整合(FD)に基づく手法はマルチモーダルラーニング(MML)において大きな成功を収めた
本稿では,特徴デカップリング時に失われた情報を復元する完全特徴分散(CFD)戦略を提案する。
具体的には、CFD戦略は、モダリティ共有とモダリティ固有の特徴を識別するだけでなく、マルチモーダル入力のサブセット間の共有特徴を分離する。
論文 参考訳(メタデータ) (2024-07-06T01:49:38Z) - How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Series [3.6958071416494414]
MTTS(Mixed-type Time Series)は、医療、金融、環境モニタリング、ソーシャルメディアなど、多くの分野で一般的なバイモーダルデータである。
マルチモーダル融合による両モードの統合はMTTSの処理において有望なアプローチである。
MTTS予測のための深層多モード融合手法の総合評価を行った。
論文 参考訳(メタデータ) (2024-06-21T12:26:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multimodal Hyperspectral Image Classification via Interconnected Fusion [12.41850641917384]
The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-04-02T09:46:13Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。