論文の概要: A Low-rank Matching Attention based Cross-modal Feature Fusion Method
for Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.17799v1
- Date: Fri, 16 Jun 2023 16:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 14:01:31.563549
- Title: A Low-rank Matching Attention based Cross-modal Feature Fusion Method
for Conversational Emotion Recognition
- Title(参考訳): 低ランクマッチング注意に基づく会話感情認識のためのクロスモーダル特徴融合法
- Authors: Yuntao Shou, Xiangyong Cao, Deyu Meng, Bo Dong, Qinghua Zheng
- Abstract要約: 本稿では,会話感情認識(CER)タスクのためのクロスモーダルな特徴融合手法を提案する。
LMAMは、一致重みを設定し、モーダル特徴列間のアテンションスコアを計算することにより、自己注意法よりも少ないパラメータを含む。
LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグ・アンド・プレイ方式で性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 56.20144064187554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational emotion recognition (CER) is an important research topic in
human-computer interactions. Although deep learning (DL) based CER approaches
have achieved excellent performance, existing cross-modal feature fusion
methods used in these DL-based approaches either ignore the intra-modal and
inter-modal emotional interaction or have high computational complexity. To
address these issues, this paper develops a novel cross-modal feature fusion
method for the CER task, i.e., the low-rank matching attention method (LMAM).
By setting a matching weight and calculating attention scores between modal
features row by row, LMAM contains fewer parameters than the self-attention
method. We further utilize the low-rank decomposition method on the weight to
make the parameter number of LMAM less than one-third of the self-attention.
Therefore, LMAM can potentially alleviate the over-fitting issue caused by a
large number of parameters. Additionally, by computing and fusing the
similarity of intra-modal and inter-modal features, LMAM can also fully exploit
the intra-modal contextual information within each modality and the
complementary semantic information across modalities (i.e., text, video and
audio) simultaneously. Experimental results on some benchmark datasets show
that LMAM can be embedded into any existing state-of-the-art DL-based CER
methods and help boost their performance in a plug-and-play manner. Also,
experimental results verify the superiority of LMAM compared with other popular
cross-modal fusion methods. Moreover, LMAM is a general cross-modal fusion
method and can thus be applied to other multi-modal recognition tasks, e.g.,
session recommendation and humour detection.
- Abstract(参考訳): 会話感情認識(CER)は人間とコンピュータの相互作用において重要な研究課題である。
ディープラーニング(DL)ベースのCERアプローチは優れた性能を達成しているが、これらのDLベースのアプローチで使われている既存のクロスモーダル特徴融合手法は、モーダル内およびモーダル間感情相互作用を無視するか、高い計算複雑性を有する。
これらの課題に対処するため、CERタスクのための新しいクロスモーダル特徴融合法、すなわち低ランク対応注意法(LMAM)を開発した。
一致重みを設定してモーダル特徴列間の注意スコアを算定することにより、lmamは自己照準法よりも少ないパラメータを含む。
さらに,低ランク分解法を用いて,自己注意の3分の1以下でLMAMのパラメータ数を推定する。
したがって、lmamは多数のパラメータによって引き起こされる過剰フィッティング問題を軽減することができる。
さらに、モーダル内およびモーダル間の特徴の類似性を計算および融合することにより、lmamは、モーダル内コンテキスト情報を各モーダル内情報と、モーダル間(テキスト、ビデオ、音声など)にまたがる補完的な意味情報を同時に利用することができる。
いくつかのベンチマークデータセットの実験結果から、LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグアンドプレイで性能を向上させることができる。
また,他の一般的なクロスモーダル核融合法と比較して,lmamが優れていることを実験的に検証した。
さらに、LMAMは一般的なクロスモーダル融合法であり、セッションレコメンデーションやユーモア検出といった他のマルチモーダル認識タスクにも適用することができる。
関連論文リスト
- Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multimodal Hyperspectral Image Classification via Interconnected Fusion [12.41850641917384]
The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-04-02T09:46:13Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。