論文の概要: A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion
- arxiv url: http://arxiv.org/abs/2502.08573v1
- Date: Wed, 12 Feb 2025 17:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:56.310683
- Title: A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion
- Title(参考訳): マルチモーダル感情認識のための新しいアプローチ : 多モーダル意味情報融合
- Authors: Wei Dai, Dequan Zheng, Feng Yu, Yanrong Zhang, Yaohui Hou,
- Abstract要約: 本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 3.1409950035735914
- License:
- Abstract: With the advancement of artificial intelligence and computer vision technologies, multimodal emotion recognition has become a prominent research topic. However, existing methods face challenges such as heterogeneous data fusion and the effective utilization of modality correlations. This paper proposes a novel multimodal emotion recognition approach, DeepMSI-MER, based on the integration of contrastive learning and visual sequence compression. The proposed method enhances cross-modal feature fusion through contrastive learning and reduces redundancy in the visual modality by leveraging visual sequence compression. Experimental results on two public datasets, IEMOCAP and MELD, demonstrate that DeepMSI-MER significantly improves the accuracy and robustness of emotion recognition, validating the effectiveness of multimodal feature fusion and the proposed approach.
- Abstract(参考訳): 人工知能とコンピュータビジョン技術の進歩により、マルチモーダルな感情認識が顕著な研究トピックとなっている。
しかし、既存の手法では、不均一なデータ融合やモダリティ相関の有効利用といった課題に直面している。
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
提案手法は、コントラスト学習によるクロスモーダル特徴融合を強化し、視覚的シーケンス圧縮を活用することにより、視覚的モダリティの冗長性を低減する。
2つの公開データセットであるIEMOCAPとMELDの実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上し、マルチモーダル特徴融合の有効性と提案手法の有効性を検証した。
関連論文リスト
- Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。
提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。
この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文 参考訳(メタデータ) (2025-02-01T20:32:57Z) - WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。
WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。
本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-07T06:43:39Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multimodal Latent Emotion Recognition from Micro-expression and
Physiological Signals [11.05207353295191]
本稿では,マルチモーダルデータの導入による潜在感情認識の精度向上のメリットを論じ,マイクロ・エクスプレッション(ME)と生理信号(PS)に着目した。
提案手法では,MEとPSを組み合わせた新しいマルチモーダル学習フレームワークを提案する。
実験の結果,提案手法は,重み付き融合法とガイド付注目モジュールにより,性能向上に寄与することがわかった。
論文 参考訳(メタデータ) (2023-08-23T14:17:44Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。