論文の概要: All rivers run into the sea: Unified Modality Brain-like Emotional Central Mechanism
- arxiv url: http://arxiv.org/abs/2407.15590v1
- Date: Mon, 22 Jul 2024 12:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:01:15.072799
- Title: All rivers run into the sea: Unified Modality Brain-like Emotional Central Mechanism
- Title(参考訳): すべての川が海に注ぐ:統一されたモダリティ脳のような感情中心メカニズム
- Authors: Xinji Mai, Junxiong Lin, Haoran Wang, Zeng Tao, Yan Wang, Shaoqi Yan, Xuan Tong, Jiawen Yu, Boyang Wang, Ziheng Zhou, Qing Zhao, Shuyong Gao, Wenqiang Zhang,
- Abstract要約: UMBEnetは脳に似た統合型モーダル感情処理ネットワークである。
UMBEnetの基本設計は、プロンプトプールとスパースフィーチャーフュージョン(SFF)モジュールで固有のプロンプトを融合するデュアルストリーム(DS)構造である。
Dynamic Facial Expression Recognition (DFER)フィールドにおける最大のベンチマークデータセットの実験では、UMBEnetは現在の最先端メソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 32.742064026327334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of affective computing, fully leveraging information from a variety of sensory modalities is essential for the comprehensive understanding and processing of human emotions. Inspired by the process through which the human brain handles emotions and the theory of cross-modal plasticity, we propose UMBEnet, a brain-like unified modal affective processing network. The primary design of UMBEnet includes a Dual-Stream (DS) structure that fuses inherent prompts with a Prompt Pool and a Sparse Feature Fusion (SFF) module. The design of the Prompt Pool is aimed at integrating information from different modalities, while inherent prompts are intended to enhance the system's predictive guidance capabilities and effectively manage knowledge related to emotion classification. Moreover, considering the sparsity of effective information across different modalities, the SSF module aims to make full use of all available sensory data through the sparse integration of modality fusion prompts and inherent prompts, maintaining high adaptability and sensitivity to complex emotional states. Extensive experiments on the largest benchmark datasets in the Dynamic Facial Expression Recognition (DFER) field, including DFEW, FERV39k, and MAFW, have proven that UMBEnet consistently outperforms the current state-of-the-art methods. Notably, in scenarios of Modality Missingness and multimodal contexts, UMBEnet significantly surpasses the leading current methods, demonstrating outstanding performance and adaptability in tasks that involve complex emotional understanding with rich multimodal information.
- Abstract(参考訳): 感情コンピューティングの分野では、様々な感覚モーダルからの情報を完全に活用することが、人間の感情の包括的理解と処理に不可欠である。
人間の脳が感情を処理するプロセスと、横断的可塑性の理論に触発されて、脳のような統合されたモーダル感情処理ネットワークであるUMBEnetを提案する。
UMBEnetの基本設計は、プロンプトプールとスパースフィーチャーフュージョン(SFF)モジュールで固有のプロンプトを融合するデュアルストリーム(DS)構造である。
Prompt Poolの設計は、様々なモダリティからの情報を統合することを目的としており、本質的なプロンプトは、システムの予測誘導能力を高め、感情分類に関する知識を効果的に管理することを目的としている。
SSFモジュールは、様々なモダリティにまたがる効果的な情報の空間性を考慮して、モダリティ融合プロンプトと本質的なプロンプトの疎結合により、利用可能なすべての感覚データをフル活用し、高い適応性と複雑な感情状態への感受性を維持することを目的としている。
DFEW、FERV39k、MAFWを含む、DFER(Dynamic Facial Expression Recognition)分野における最大のベンチマークデータセットに関する大規模な実験は、UMBEnetが現在の最先端手法よりも一貫して優れていることを証明している。
特に、Modality Missingness や Multimodal contexts のシナリオでは、UMBEnet は主要な手法をはるかに上回り、豊富なマルチモーダル情報を伴う複雑な感情的理解を含むタスクにおいて、優れたパフォーマンスと適応性を示す。
関連論文リスト
- Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Hypercomplex Multimodal Emotion Recognition from EEG and Peripheral
Physiological Signals [7.293063257956068]
本稿では,パラメータ化ハイパーコンプレックス乗算を含む新しい融合モジュールを備えたハイパーコンプレックス・マルチモーダルネットワークを提案する。
我々は,脳波(EEG)および末梢生理信号から価値と覚醒値の分類を行い,公開されているMAHNOB-HCIを用いて検討した。
論文 参考訳(メタデータ) (2023-10-11T16:45:44Z) - CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition [34.24557248359872]
会話における感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク(CFN-ESA)を提案する。
CFN-ESAは、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)からなる。
論文 参考訳(メタデータ) (2023-07-28T09:29:42Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。