論文の概要: DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2508.01644v1
- Date: Sun, 03 Aug 2025 08:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.986536
- Title: DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition
- Title(参考訳): DRKF:マルチモーダル感情認識のための知識融合による非結合表現
- Authors: Peiyuan Jiang, Yao Liu, Qiao Liu, Zongshun Zhang, Jiaye Yang, Lu Liu, Daibing Yao,
- Abstract要約: マルチモーダル感情認識のための解答表現と知識融合(DRKF)手法を提案する。
DRKFは、最適化表現学習(ORL)モジュールと知識融合(KF)モジュールの2つの主要なモジュールで構成されている。
実験の結果, DRKFはIEMOCAP, MELD, M3ED上でのSOTA(State-of-the-art)性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 5.765485747592163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition (MER) aims to identify emotional states by integrating and analyzing information from multiple modalities. However, inherent modality heterogeneity and inconsistencies in emotional cues remain key challenges that hinder performance. To address these issues, we propose a Decoupled Representations with Knowledge Fusion (DRKF) method for MER. DRKF consists of two main modules: an Optimized Representation Learning (ORL) Module and a Knowledge Fusion (KF) Module. ORL employs a contrastive mutual information estimation method with progressive modality augmentation to decouple task-relevant shared representations and modality-specific features while mitigating modality heterogeneity. KF includes a lightweight self-attention-based Fusion Encoder (FE) that identifies the dominant modality and integrates emotional information from other modalities to enhance the fused representation. To handle potential errors from incorrect dominant modality selection under emotionally inconsistent conditions, we introduce an Emotion Discrimination Submodule (ED), which enforces the fused representation to retain discriminative cues of emotional inconsistency. This ensures that even if the FE selects an inappropriate dominant modality, the Emotion Classification Submodule (EC) can still make accurate predictions by leveraging preserved inconsistency information. Experiments show that DRKF achieves state-of-the-art (SOTA) performance on IEMOCAP, MELD, and M3ED. The source code is publicly available at https://github.com/PANPANKK/DRKF.
- Abstract(参考訳): マルチモーダル感情認識(MER)は、複数のモーダルからの情報の統合と分析によって感情状態を識別することを目的としている。
しかし、感情的な手がかりにおける本質的なモダリティの不均一性と矛盾は、パフォーマンスを妨げる重要な課題である。
これらの問題に対処するために,MERのためのDEC(Decoupled Representations with Knowledge Fusion)法を提案する。
DRKFは、最適化表現学習(ORL)モジュールと知識融合(KF)モジュールの2つの主要なモジュールで構成されている。
ORLは,タスク関連共有表現とモーダリティ特化特徴を分離し,モーダリティの不均一性を緩和するために,プログレッシブモーダリティ拡張を用いたコントラッシブな相互情報推定手法を用いる。
KFには、支配的なモダリティを特定し、他のモダリティからの感情情報を統合して融合表現を強化する、軽量な自己注意ベースのフュージョンエンコーダ(FE)が含まれている。
情緒的不整合条件下での不正な支配的モダリティ選択の潜在的な誤りに対処するために,情緒的不整合の差別的手がかりを維持するために融合表現を強制する感情識別サブモジュール(ED)を導入する。
これにより、FEが不適切な支配的モダリティを選択しても、Emotion Classification Submodule (EC) は保存された矛盾情報を利用して正確な予測を行うことができる。
実験の結果, DRKFはIEMOCAP, MELD, M3ED上でのSOTA(State-of-the-art)性能を達成した。
ソースコードはhttps://github.com/PANKK/DRKFで公開されている。
関連論文リスト
- Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition [7.25361375272096]
マルチモーダル・マルチラベル感情認識は,マルチモーダルデータにおける複数の感情の存在を同時に認識することを目的としている。
既存の研究では、マルチモーダルデータに固有のノイズであるテクスブファレラティック不確実性の影響を見落としている。
本稿では,不確かさ認識フレームワークを用いた潜在感情分布分解法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:53:23Z) - Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - SFusion: Self-attention based N-to-One Multimodal Fusion Block [6.059397373352718]
本稿では,SFusionと呼ばれる自己注意型核融合ブロックを提案する。
使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。
本研究では,SFusionを異なるバックボーンネットワークに適用し,ヒトの活動認識と脳腫瘍のセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-08-26T16:42:14Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。