Fugu-MT 論文翻訳(概要): A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition

論文の概要: A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition

arxiv url: http://arxiv.org/abs/2306.17799v1
Date: Fri, 16 Jun 2023 16:02:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-09 14:01:31.563549
Title: A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition
Title（参考訳）: 低ランクマッチング注意に基づく会話感情認識のためのクロスモーダル特徴融合法
Authors: Yuntao Shou, Xiangyong Cao, Deyu Meng, Bo Dong, Qinghua Zheng
Abstract要約: 本稿では,会話感情認識(CER)タスクのためのクロスモーダルな特徴融合手法を提案する。 LMAMは、一致重みを設定し、モーダル特徴列間のアテンションスコアを計算することにより、自己注意法よりも少ないパラメータを含む。 LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグ・アンド・プレイ方式で性能を向上させることができることを示す。
参考スコア（独自算出の注目度）: 56.20144064187554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conversational emotion recognition (CER) is an important research topic in human-computer interactions. Although deep learning (DL) based CER approaches have achieved excellent performance, existing cross-modal feature fusion methods used in these DL-based approaches either ignore the intra-modal and inter-modal emotional interaction or have high computational complexity. To address these issues, this paper develops a novel cross-modal feature fusion method for the CER task, i.e., the low-rank matching attention method (LMAM). By setting a matching weight and calculating attention scores between modal features row by row, LMAM contains fewer parameters than the self-attention method. We further utilize the low-rank decomposition method on the weight to make the parameter number of LMAM less than one-third of the self-attention. Therefore, LMAM can potentially alleviate the over-fitting issue caused by a large number of parameters. Additionally, by computing and fusing the similarity of intra-modal and inter-modal features, LMAM can also fully exploit the intra-modal contextual information within each modality and the complementary semantic information across modalities (i.e., text, video and audio) simultaneously. Experimental results on some benchmark datasets show that LMAM can be embedded into any existing state-of-the-art DL-based CER methods and help boost their performance in a plug-and-play manner. Also, experimental results verify the superiority of LMAM compared with other popular cross-modal fusion methods. Moreover, LMAM is a general cross-modal fusion method and can thus be applied to other multi-modal recognition tasks, e.g., session recommendation and humour detection.
Abstract（参考訳）: 会話感情認識(CER)は人間とコンピュータの相互作用において重要な研究課題である。ディープラーニング(DL)ベースのCERアプローチは優れた性能を達成しているが、これらのDLベースのアプローチで使われている既存のクロスモーダル特徴融合手法は、モーダル内およびモーダル間感情相互作用を無視するか、高い計算複雑性を有する。これらの課題に対処するため、CERタスクのための新しいクロスモーダル特徴融合法、すなわち低ランク対応注意法(LMAM)を開発した。一致重みを設定してモーダル特徴列間の注意スコアを算定することにより、lmamは自己照準法よりも少ないパラメータを含む。さらに,低ランク分解法を用いて,自己注意の3分の1以下でLMAMのパラメータ数を推定する。したがって、lmamは多数のパラメータによって引き起こされる過剰フィッティング問題を軽減することができる。さらに、モーダル内およびモーダル間の特徴の類似性を計算および融合することにより、lmamは、モーダル内コンテキスト情報を各モーダル内情報と、モーダル間(テキスト、ビデオ、音声など)にまたがる補完的な意味情報を同時に利用することができる。いくつかのベンチマークデータセットの実験結果から、LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグアンドプレイで性能を向上させることができる。また,他の一般的なクロスモーダル核融合法と比較して,lmamが優れていることを実験的に検証した。さらに、LMAMは一般的なクロスモーダル融合法であり、セッションレコメンデーションやユーモア検出といった他のマルチモーダル認識タスクにも適用することができる。

関連論文リスト

GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。 IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文参考訳（メタデータ） (2025-06-01T07:07:02Z)
A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。 2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-02-12T17:07:43Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。 MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文参考訳（メタデータ） (2023-10-04T13:54:46Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文参考訳（メタデータ） (2022-09-19T15:01:55Z)
Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文参考訳（メタデータ） (2021-11-09T16:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。