論文の概要: Multimodal Functional Maximum Correlation for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.23076v1
- Date: Sun, 28 Dec 2025 20:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.355037
- Title: Multimodal Functional Maximum Correlation for Emotion Recognition
- Title(参考訳): 感情認識のためのマルチモーダル機能最大相関
- Authors: Deyang Zheng, Tianyi Zhang, Wenming Zheng, Shujian Yu,
- Abstract要約: 感情状態は、中央システムと自律システムにまたがって協調しているが不均一な生理的反応として表される。
我々は,高次マルチモーダル依存を最大化するために,MFMC(Multimodal Functional Maximum correlation)を提案する。
MFMCは、主題に依存しない評価プロトコルと対象に依存しない評価プロトコルの両方の下で、一貫して最先端または競争力を持つ。
- 参考スコア(独自算出の注目度): 41.64451298000105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional states manifest as coordinated yet heterogeneous physiological responses across central and autonomic systems, posing a fundamental challenge for multimodal representation learning in affective computing. Learning such joint dynamics is further complicated by the scarcity and subjectivity of affective annotations, which motivates the use of self-supervised learning (SSL). However, most existing SSL approaches rely on pairwise alignment objectives, which are insufficient to characterize dependencies among more than two modalities and fail to capture higher-order interactions arising from coordinated brain and autonomic responses. To address this limitation, we propose Multimodal Functional Maximum Correlation (MFMC), a principled SSL framework that maximizes higher-order multimodal dependence through a Dual Total Correlation (DTC) objective. By deriving a tight sandwich bound and optimizing it using a functional maximum correlation analysis (FMCA) based trace surrogate, MFMC captures joint multimodal interactions directly, without relying on pairwise contrastive losses. Experiments on three public affective computing benchmarks demonstrate that MFMC consistently achieves state-of-the-art or competitive performance under both subject-dependent and subject-independent evaluation protocols, highlighting its robustness to inter-subject variability. In particular, MFMC improves subject-dependent accuracy on CEAP-360VR from 78.9% to 86.8%, and subject-independent accuracy from 27.5% to 33.1% using the EDA signal alone. Moreover, MFMC remains within 0.8 percentage points of the best-performing method on the most challenging EEG subject-independent split of MAHNOB-HCI. Our code is available at https://github.com/DY9910/MFMC.
- Abstract(参考訳): 感情状態は、中央システムと自律システムにまたがって協調しているが不均一な生理的応答として表され、感情コンピューティングにおけるマルチモーダル表現学習の根本的な課題となっている。
このようなジョイントダイナミクスの学習は、自己教師付き学習(SSL)の使用を動機とする感情的アノテーションの不足と主観性によってさらに複雑になる。
しかし、既存のSSLアプローチのほとんどはペアアライメントの目的に依存しており、2つ以上のモード間の依存関係を特徴づけるには不十分であり、協調した脳と自律神経反応から生じる高次相互作用を捉えることができない。
この制限に対処するため、Dual Total correlation (DTC) の目的を通した高次マルチモーダル依存を最大化するSSLフレームワークであるMFMC(Multimodal Functional Maximum correlation)を提案する。
機能的最大相関解析(FMCA)に基づくトラストサロゲートを用いてサンドイッチ境界を導出し、それを最適化することにより、MFMCは対の対照的な損失に頼らずに、ジョイントマルチモーダル相互作用を直接キャプチャする。
3つの公的な感情コンピューティングベンチマークの実験では、MFMCは主観的および主観的非依存的な評価プロトコルの下で、常に最先端または競合的な性能を達成し、オブジェクト間の変動性に対する堅牢性を強調している。
特に、MFMCはCEAP-360VRの被写体依存性の精度を78.9%から86.8%に改善し、EDA信号だけで被写体依存性の精度を27.5%から33.1%に改善した。
さらに,MFMCは,MAHNOB-HCIにおいて最も難易度の高い脳波非依存性分割法において,最高のパフォーマンス法である0.8%の範囲に留まっている。
私たちのコードはhttps://github.com/DY9910/MFMCで公開されています。
関連論文リスト
- MCN-CL: Multimodal Cross-Attention Network and Contrastive Learning for Multimodal Emotion Recognition [8.732416479560605]
本稿では,マルチモーダル感情認識のためのマルチモーダル・クロスアテンション・ネットワークとコントラシブ・ラーニング(MCN-CL)を提案する。
重要な感情的な手がかりを保持しながら、特徴の冗長性を除去するために、トリプルクエリメカニズムとハードネガティブマイニング戦略を使用する。
IEMOCAPとMELDデータセットの実験結果から,提案手法は最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-11-14T02:13:31Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Multimodal Fine-grained Reasoning for Post Quality Evaluation [1.806315356676339]
人間の認知過程を模倣したMFTRR(Multimodal Fine-fine Topic-post Reasoning)フレームワークを提案する。
MFTRRはポストクオリティアセスメントをランキングタスクとして再設定し、マルチモーダルデータを組み込んで品質の変化をよりよく捉えている。
論文 参考訳(メタデータ) (2025-07-21T04:30:50Z) - Hyper-modal Imputation Diffusion Embedding with Dual-Distillation for Federated Multimodal Knowledge Graph Completion [59.54067771781552]
本稿では,FedMKGCのマルチモーダル不確実性とマルチモーダルクライアントの不均一性問題に対処するMMFeD3-HidEというフレームワークを提案する。
本稿では,MMFedEという一般的なFedMKGCバックボーン,異種マルチモーダル情報を持つデータセット,構築されたベースラインの3つのグループからなる総合評価のためのFedMKGCベンチマークを提案する。
論文 参考訳(メタデータ) (2025-06-27T09:32:58Z) - MIA-Mind: A Multidimensional Interactive Attention Mechanism Based on MindSpore [0.0]
軽量かつモジュラーな多次元対話型注意機構MIA-Mindを提案する。
MIA-Mindは、統合された断熱融合戦略により、空間的特徴とチャネル的特徴を共同でモデル化する。
実験は3つの代表的なデータセットで実施される。
論文 参考訳(メタデータ) (2025-04-27T02:27:50Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。