論文の概要: Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework
- arxiv url: http://arxiv.org/abs/2407.09029v1
- Date: Fri, 12 Jul 2024 06:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:26:50.034324
- Title: Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework
- Title(参考訳): 不完全データにおける感情認識の強化:新しいクロスモーダルアライメント,リコンストラクション,リファインメントフレームワーク
- Authors: Haoqin Sun, Shiwan Zhao, Shaokai Li, Xiangyu Kong, Xuechen Wang, Aobo Kong, Jiaming Zhou, Yong Chen, Wenjia Zeng, Yong Qin,
- Abstract要約: 本稿では、CM-ARR(Cross-Modal Alignment, Reconstruction and Refinement)フレームワークを提案する。
このフレームワークは、欠落したモダリティを扱うために、クロスモーダルアライメント、再構築、改善フェーズに従事します。
IEMOCAPおよびMSP-IMPROVデータセットの実験により、CM-ARRの欠落と完全モダリティの両方の条件下での優れた性能が確認された。
- 参考スコア(独自算出の注目度): 11.278202284982209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition systems rely heavily on the full availability of modalities, suffering significant performance declines when modal data is incomplete. To tackle this issue, we present the Cross-Modal Alignment, Reconstruction, and Refinement (CM-ARR) framework, an innovative approach that sequentially engages in cross-modal alignment, reconstruction, and refinement phases to handle missing modalities and enhance emotion recognition. This framework utilizes unsupervised distribution-based contrastive learning to align heterogeneous modal distributions, reducing discrepancies and modeling semantic uncertainty effectively. The reconstruction phase applies normalizing flow models to transform these aligned distributions and recover missing modalities. The refinement phase employs supervised point-based contrastive learning to disrupt semantic correlations and accentuate emotional traits, thereby enriching the affective content of the reconstructed representations. Extensive experiments on the IEMOCAP and MSP-IMPROV datasets confirm the superior performance of CM-ARR under conditions of both missing and complete modalities. Notably, averaged across six scenarios of missing modalities, CM-ARR achieves absolute improvements of 2.11% in WAR and 2.12% in UAR on the IEMOCAP dataset, and 1.71% and 1.96% in WAR and UAR, respectively, on the MSP-IMPROV dataset.
- Abstract(参考訳): マルチモーダル感情認識システムは、モーダルデータの完全利用に大きく依存しており、モーダルデータが不完全である場合に顕著な性能低下を被る。
この問題に対処するために,クロスモーダルアライメント,リコンストラクション,リファインメント(CM-ARR)フレームワークを提案する。
このフレームワークは、教師なし分布に基づくコントラスト学習を利用して、不均一なモーダル分布を整列させ、相違を低減し、意味的不確実性を効果的にモデル化する。
再構成フェーズは、これらの整列分布を変換し、欠落したモダリティを回復するために、正規化フローモデルを適用する。
改善フェーズでは、教師付きポイントベースのコントラスト学習を用いて、意味的相関を乱し、感情的特徴をアクセントし、再構成された表現の感情的内容を強化する。
IEMOCAP と MSP-IMPROV データセットの大規模な実験により、CM-ARR の欠落と完全モダリティの両方の条件下での優れた性能が確認された。
CM-ARRは6つのモダリティのシナリオの平均として、IEMOCAPデータセットではWARが2.11%、UARが2.12%、MSP-IMPROVデータセットではWARが1.71%、UARが1.96%という絶対的な改善を実現している。
関連論文リスト
- Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Deep Unfolding Network with Spatial Alignment for multi-modal MRI
reconstruction [17.41293135114323]
多モードMRI(Multi-modal Magnetic Resonance Imaging)は相補的な診断情報を提供するが、長い走査時間によっていくつかのモダリティが制限される。
取得過程全体を高速化するため、高アンサンプされたk空間データから他の完全サンプリングされた参照モダリティへのMRI再構成は効率的な解である。
モーダリティ間のミスアライメントを考慮に入れた既存のディープラーニングベースの手法は、パフォーマンスが向上するが、しかしながら2つの主要な共通制限を共有している。
論文 参考訳(メタデータ) (2023-12-28T13:02:16Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Cross-Modality Earth Mover's Distance for Visible Thermal Person
Re-Identification [82.01051164653583]
Visible thermal person re-identification (VT-ReID) は、モダリティ間の相違と同一性内変異に悩まされる。
我々は,モーダルアライメント中の個人内変動の影響を軽減することができるクロスモーダルアースモーバー距離(CM-EMD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T12:26:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。